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本 书 全 面 系统 地 介绍 了 机 器 学 习 的 基本 概念 、 预 备 知 识 ,主要 思想 、 研 究 进展 、 基 
础 技术 ,应 用 技巧 ,并 围绕 当前 机 器 学 习 领 域 的 热点 问题 展开 讨论 。 章 节 安 排 由 浅 人 
深 , 涵 盖 回 归 问 题 ,分 类 问题 ,监督 学 习 、 无 监督 学 习 。 上 有 具体 内容 包括 决策 树 、 神 经 网 
络 、 支 持 向 量 机 、 遗 传 算法 ,集成 学 习 、 聚 类 分 析 等 。 各 章 对 原理 的 叙述 力求 概念 清晰 、 
表达 准确 ,突出 理论 联系 实际 ,富有 启发 性 ,易于 理解 。 辅 以 代码 实践 指导 ,引领 读者 
快速 迈进 机 器 学 习 领 域 , 通 过 动手 实践 进一步 加 深 对 机 器 学 习 算法 的 理解 。 

本 书 注重 对 数学 分 析 方 法 和 理论 的 探讨 ,而 且 也 非常 关注 神经 网 络 在 模式 识别 、 
信号 处 理 以 及 控制 系统 等 实际 工程 问题 中 的 应 用 。 它 完美 结合 了 基础 理论 与 应 用 实 
践 , 可 作为 高 等 院 校 计算 机 、 软 件 工程 .智能 科学 与 技术 等 专业 研究 生 和 高 年 级 本 科 生 
的 教材 ,同时 对 于 从 事 人 工 智 能 ,数据 挖掘 ,模式 识别 的 相关 技术 人 员 也 具有 较 高 参考 
价值 。 

大 数据 时 代 是 机 器 学 习 最 美好 的 时 代 。 和 希望 本 书 不 仅 可 以 帮助 读者 深入 理解 机 
器 学 习 的 概念 ,在 理论 分 析 与 实际 应 用 技术 的 结合 中 ,掌握 主流 解决 方案 ,更 能 以 一 种 
全 新 的 视角 理解 在 实际 软件 工程 中 机 器 学 习 的 总 体 思想 ,在 人 工 智 能 的 大 时 代 中 夺 得 
先 机 ! 

本 书 的 作者 为 吕 云 翔 . 马 连 却 、 刘 卓然 , 张 凡 、 张 程 博 , 另 外 , 曾 洪 立 、 吕 彼 佳 、. 姜 彦 
华 进行 了 素材 整理 及 配套 资源 制作 等 。 由 于 机 器 学 习 是 一 门 新 兴学 科 , 机 器 学 习 的 教 
学 方法 本 身 还 在 探索 之 中 ,加 之 作者 的 水 平和 能 力 有 限 , 书 中 难免 存在 疏漏 之 处 ,县 请 
各 位 同仁 和 广大 读者 给 予 批评 指正 。 也 希望 各 位 能 将 实践 过 程 中 的 经 验 和 心得 与 我 
们 交流 (yunxianglu@hotmail. com) 。 
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1.1. 从 两 个 问题 谈 起 


问题 一 : KLIS ARLE MSS MARR RES 数据 挖掘 ,它们 是 
什么 关系 ? 

人 与 动物 根本 的 区 别 在 于 是 否 拥有 智能 。 日 常生 活 中 ,人 们 一 直 在 本 能 地 使 用 非 
常 复杂 而 又 高 效 的 智能 算法 一 一 识别 出 同学 的 长 相 , 根 据 云 的 形状 预测 天 气 .把 要 传 
达 的 信息 组 织 成 一 句 话 等 。 当 我 们 希望 机 器 也 能 聪明 地 完成 类 似 的 事情 时 ,就 需要 利 
用 人 工 智能 (Artificial Intelligence. AD 。 

人 工 智能 中 首先 包括 知识 工程 (Knowledge Engineering), 即 根据 已 有 知识 ,利用 
规则 去 解决 问题 。 例 如 ,我 们 写 一 段 程序 规定 ,如 果 鼻 子 眼睛 之 间 的 距离 超过 一 个 值 ， 
那么 就 识别 为 某 个 人 的 脸 。 如 果 我 们 把 世界 上 人 类 的 知识 都 转化 为 规则 , 那 是 不 是 就 
诞生 了 全 知 全 能 的 AI? 但 显然 我 们 无 法 穷 举 规则 。 

机 器 学 习 (Machine Learning) 是 人 工 智能 的 另 一 部 分 ,也 是 核心 技术 。 其 利用 经 
验 ,建立 统计 模型 .概率 模型 ,去 解决 问题 。 具 体 地 讲 , 机 器 学 习 就 是 对 某 个 实际 问题 
建立 计算 模型 (Computational Model) ,并 利用 已 知 的 经 验 (Experience) 来 提升 模型 效 
果 (Performance) 的 一 类 方法 。 我 们 经 常 听 到 的 贝 叶 斯 神经 网 络 、 支 持 向 量 机 都 是 机 
器 学 习 的 工具 。 当 我 们 要 处 理 、 分 析 的 数据 中 存在 一 定 模式 ,我 们 想 把 其 中 的 知识 写 
成 规则 ,形式 化 地 确定 下 来 ,但 又 无 法 穷尽 时 ,就 可 以 尝试 机 器 学 习 的 方法 。 比 如 把 医 
生 多 年 学 习 、 工 作 的 经 验 知识 ,确定 为 一 个 模型 ,来 进行 疾病 诊断 。 

机 器 学 习 方法 在 大 型 数据 库 中 的 应 用 称 为 数据 挖掘 (Data Mining)。 在 数据 挖掘 
中 ,需要 处 理 大 量 的 数据 以 构建 简单 有 效 的 模型 ,如 具有 高 精度 的 预测 模型 。 具 体 应 
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用 如 : 零售 业 中 分 析 历 史 数据 ,来 构建 市 场 应 用 模型 ; 制造 业 中 的 学 习 模 型 用 于 故障 
检测 ; 物理 学 天文学、 生物 学 中 的 海量 数据 分 析 等 。 

机 器 学 习 中 ,受到 人 脑 神经 元 认 知 原理 的 启发 ,人 们 设计 了 人 工 神经 网 络 (Neural 
Network,NN) 。 利 用 数据 不 断 训 练 得 到 一 个 模型 ,将 输入 映射 为 输出 。 研 究 者 们 从 
数学 上 证 明 , 多 层 嵌 套 的 神经 网 络 配合 非 线性 激活 函数 可 以 模拟 任意 连续 函数 。 当 神 
经 网 络 最 早 提出 时 ,人 们 非常 兴奋 ,因为 如 此 简单 的 模型 却 能 干 很 复杂 的 事情 。 大 家 
认为 机 器 学 习 全 新 的 时 代 来 临 了 ,真正 的 人 工 智能 即将 实现 。 但 是 随 着 研究 进展 ,大 
家 发 现 ,由 于 计算 资源 和 数据 的 限制 ,网 络 做 不 大 ,在 人 工 给 定 特征 时 ,性 能 上 还 是 比 
不 过 传统 机 器 学 习 模 型 。 

在 神经 网 络 最 早 提出 时 ,隐藏 层 的 层 数 很 少 。 随 着 研究 进展 ,人 们 发 现 层 数 的 增 
加 对 提升 网 络 模型 能 力 非常 有 帮助 。 这 样 的 模型 提供 了 一 个 层次 建 模 的 功能 ,可 以 对 
输入 的 数据 逐 层 提取 特征 。 同 时 ,神经 网 络 研究 者 们 的 思路 发 生 了 变化 ,他 们 指出 
现代 人 工 智 能 的 关键 是 表示 学 习 , 希 望 神经 网 络 能 实现 从 数据 到 表示 , 即 深 度 学 习 
(Deep Learning) 。 深 度 学 习 相 对 于 传统 神经 网 络 ,可 以 简单 理解 为 多 层 网 络 的 
HE 

传统 机 器 学 习 方 法 在 做 图 像 分 类 识别 时 ,需要 研究 者 提供 人 工 指定 的 特征 值 。 而 
对 于 深度 学 习 方 法 ,我 们 可 以 直接 把 原始 的 图 像 提 供给 网 络 。 图 像 中 包含 分 类 所 需要 
的 全 部 原始 信息 ,网 络 将 自己 在 训练 过 程 中 调整 权重 ,学 习 使 用 怎样 的 特征 来 描述 原 
始 输入 ,把 经 验 固 化 在 网 络 。21 世纪 大 数据 \ 云 计算 的 背景 让 这 个 思路 得 以 实现 。 

需要 注意 的 是 ,截至 目前 , 脑 科学 作为 一 个 逐渐 探索 的 领域 ,还 没有 人 能 完全 回答 
人 类 神经 元 的 工作 机 理 ,NN 的 模型 也 还 十 分 简单 , 且 AI 的 发 展 并 不 是 主要 由 认 知 推 
动 的 ,数学 等 相关 技术 才 是 AI 真正 有 效 的 手段 。AI 的 发 展 对 认 知 也 有 一 定 的 推动 作 
用 。 虽 然 也 许 未 来 随 着 人 们 对 脑 科 学 的 认识 更 加 深入 ,AI 的 能 力 会 得 到 提升 ,但 现在 
作为 机 器 学 习 的 相关 研究 者 ,你 并 不 需要 非常 了 解 人 脑 认 知 。 

到 目前 为 止 ,在 有 监督 学 习 方 面 .深度 学 习 几 乎 超越 了 任何 其 他 传统 方法 。 在 数 
据 量 大 的 领域 ,特定 场景 特定 需求 的 弱 人 工 智 能 将 会 很 快 成 为 主流 。 但 是 现在 我 们 
距离 “终结 者 ?那样 的 人 工 智能 还 非常 遥远 。 


人 工 智能 拓展 故事 : Google DeepMind AlphaGo 


2016 年 ,关于 谷歌 “阿尔 法 狗 ” 的 新 闻 曾 经 刷 爆 了 大 家 的 屏幕 。 

2014 年 4 月 到 2015 年 9 月 ,AlphaGo 以 英国 棋 友 “DeepMind” 的 名 义 在 弈 城 围棋 
网 上 对 弈 ,水 平 维持 在 职业 七 段 到 八 段 之 间 。2015 年 9 月 16 日 首次 上 升 到 职业 九 
段 。2015 年 10 月 ,分 布 式 版 AlphaGo YA 5 : 0 击败 了 欧洲 围棋 冠军 、 华 益 法 籍 棋士 柳 
订 。 这 是 计算 机 围棋 程序 第 一 次 在 十 九 路 棋盘 且 分 先 的 情况 下 击败 职业 围棋 棋 手 。 
2016 年 3 月 ,AlphaGo 挑战 世界 冠军 九段 棋士 李 世 到 ,并 以 4: 1 取得 胜利 。 这 次 对 
战 在 网 络 上 引发 了 人 们 对 人 工 智能 的 广泛 讨论 。2016 年 7 月 ,世界 职业 围棋 排名 网 
站 GoRatings 公布 最 新 世界 排名 ,AlphaGo 以 3612 分 ,超越 3608 分 的 柯 洁 成 为 新 的 
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世界 第 一 。2016 年 12 月 到 2017 年 1 月 ,AlphaGo 以 “Master” 名 义 注 册 弈 城 围棋 网 
和 腾讯 野 狐 围棋 网 ,以 60 战 全 胜 的 战绩 击败 中 日 、 韩 顶尖 围棋 高 手 。 

AlphaGo 最 初 通过 模仿 人 类 玩家 ,尝试 匹配 职业 棋 手 的 过 往 棋 局 ,其 数据 库 中 约 
含 3000 万 步 棋 着 。 一 旦 它 达 到 了 一 定 的 熟练 程度 , 它 就 开始 和 自己 对 弈 大 量 棋 局 ,使 
用 强化 学 习 进 一 步 改 善 自身 。 

一 盘 围棋 平均 约 有 150 步 , 每 一 步 平 均 约 有 200 种 可 选 的 下 法 。 国 棋 的 分 支 因 子 
大 大 多 于 国际 象棋 等 其 他 游戏 ,计算 机 要 在 围棋 中 取胜 比 在 其 他 游戏 中 取胜 要 困难 得 
多 。 诸 如 暴力 搜寻 法 、Alpha-Beta 剪 枝 、 启 发 式 搜索 等 传统 人 工 智 能 方法 在 围棋 中 很 
难 奏效 。 

AlphaGo 结合 深度 神经 网 络 与 蒙特 卡 洛 树 搜索 算法 ,根据 大 量 人 类 对 弈 棋局 , 模 
拟人 类 围棋 下 法 ,让 人 工 智能 算法 学 会 如 何 评估 棋局 .选择 落 子 。 

当 AlphaGo 训练 达到 一 定 水 平 后 , 它 将 会 进行 大 量 自我 对 弈 ,利用 增强 学 习 进 一 
步 提升 实力 ,超越 人 类 已 有 围棋 经 验 。 这 使 得 AlphaGo 的 棋 着 从 “看 起 来 像 人 类 高 
手 ” 提 升 至 * 人 类 无 法 完全 理解 ”的 境界 。 

问题 二 : 为 什么 需要 机 器 学 习 ? 

人 类 总 是 希望 并 善于 借用 外 部 的 力量 来 蔡 代 自己 。 工 业 化 时 代 的 人 类 使 用 各 种 
机 械 及 电气 装置 将 自己 从 重复 的 体力 劳动 中 解放 出 来 ; 到 了 20 世纪 ,人 类 建造 了 可 
编程 的 电子 计算 机 ,并 把 各 种 计算 .推理 规则 编码 到 计算 机 里 ,使 得 简单 重复 的 脑力 劳 
动 可 以 被 替代 。 

但 是 当 人 类 试图 让 机 器 朝 着 更 加 自动 化 ,智能 化 的 方向 发 展 时 , 却 发 现 许多 并 非 
传统 算法 可 以 解决 的 问题 : 现实 世界 的 运行 方式 并 不 总 是 可 以 总 结 ,提炼 成 能 编码 到 
计算 机 里 的 规则 的 。 这 是 因为 一 方面 , 某 些 时 候 这 种 规则 是 潜在 的 ,难以 使 用 严格 的 
数学 方法 定义 的 ,例如 语音 识别 ; 男 一 方面 , 某 些 问 题 是 人 类 自身 也 难以 解决 ,而 寄 希 
望 于 机 器 强大 的 计算 能 力 来 解决 的 ,例如 医学 诊断 。 

我 们 把 实际 问题 抽象 成 其 一 般 形式 : 给 定 问 题 的 场景 设 定 作 为 输入 ,馈送 (Feed) 
到 某 个 模型 中 ,并 随后 从 这 个 模型 中 得 到 反馈 (Feedback) 回 来 的 解决 方案 作为 输出 。 
TES AO x= (n sacs menn) ,输出 记 为 ?= fyiyy，…y}, 则 模型 为 一 个 从 输入 
空间 到 输出 空间 的 映射 : 

f(x) 

所 有 需要 求解 的 实际 问题 都 可 以 归纳 到 以 上 形式 。 例 如 ,在 手写 数字 识别 中 ,x 
是 手写 数字 的 图 片 ,y 是 识别 出 来 的 数字 ; 在 统计 机 器 翻译 中 ,x 是 源 语言 的 一 个 句 
子 ,y 是 目标 语言 句子 的 条 件 概 率 。 而 机 器 学 习 要 做 的 事情 ,就 是 要 利用 已 知 的 经 验 
来 优化 模型 /( ) 的 效果 。 这 些 经 验 以 观测 样本 点 (Observed Samples) 集 合 的 形式 出 
现 ,观测 样本 点 构成 的 集合 称 为 数据 集 (Dataset) 。 

通常 将 优化 一 个 模型 的 过 程 称 为 训练 (Training) 或 者 学 习 (Learning); 检验 模型 
效果 的 过 程 称 为 测试 (Testing); 若 该 模型 为 参数 化 的 模型 , 则 还 需要 通过 对 不 同 参 
数 下 的 模型 表现 进行 检验 来 选择 模型 参数 .这 个 过 程 称 为 开发 (Development) 或 者 验 
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证 (Validation) 。 我 们 通常 把 所 得 到 的 数据 集 划分 为 互 不 相交 的 几 个 集合 : 数据 集中 
绝 大 多 数 样本 点 被 用 于 训练 ,这 些 样本 点 的 集合 称 为 训练 集 ; 剩余 的 少量 样本 点 用 于 
测试 ,这 些 样 本 点 的 集合 称 为 测试 集 ; 若 需 要 选择 模型 参数 ,我 们 还 需要 与 测试 集 的 
大 小 相仿 的 少量 样本 点 的 集合 作为 开发 集 。 

在 实际 场景 中 应 用 机 器 学 习 方 法 时 ,首先 需要 回答 以 下 两 个 问题 。 

(1) 选择 何 种 模型 ? 

(2) 如 何 最 优化 该 模型 ? 

本 书 致力 于 向 读者 介绍 一 些 常见 的 机 器 学 习 模 型 以 及 它们 的 最 优化 算法 ,使 得 读 
者 在 了 解 这些 机 器 学 习 算法 的 原理 后 ,在 实际 应 用 场景 中 能 够 选择 恰当 的 模型 和 算法 
来 解决 实际 问题 。 


1.2 模型 评估 与 模型 参数 选择 


如 何 评 估 一 些 训练 好 的 模型 并 从 中 选择 最 优 的 模型 参数 ? 若 对 于 给 定 的 输入 x, 
某 个 模型 的 输出 3 二 (x) 偏离 真实 目标 值 y ,那么 就 说 明 模型 存在 误差 ; 3 了 偏离 y 的 程 
度 可 以 用 关于 了 和 y 的 某 个 函数 L(y,3 了 ) 来 表示 ,作为 误差 的 度量 标准 ,这 样 的 函数 
L(y,3) 称 为 损失 函数 。 

在 某 种 损失 函数 度量 下 ,训练 集 上 的 平均 误差 被 称 为 训练 误差 ,测试 集 上 的 误差 
称 为 泛 化 误差 。 由 于 我 们 训练 得 到 一 个 模型 的 最 终日 的 是 为 了 在 未 知 的 数据 上 得 到 
尽 可 能 准确 的 结果 ,因此 泛 化 误差 是 衡量 一 个 模型 泛 化 能 力 的 重要 标准 。 

之 所 以 不 能 把 训练 误差 作为 模型 参数 选择 的 标准 ,是 因为 训练 集 可 能 存在 以 下 问 
题 ; 训练 集 样本 太 少 ,缺乏 代表 性 ; @@ 训 练 集中 本 身 存在 错误 的 样本 , 即 噪 声 。 如 
果 片 面 地 追求 训练 误差 的 最 小 化 ,就 会 导致 模型 参数 复杂 度 增加 ,使 得 模型 过 拟 合 
COverfitting) ,如 图 1. 1 所 示 。 
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图 1.1 拟 合 与 过 拟 合 





为 了 选择 效果 最 佳 的 模型 ,防止 过 拟 合 的 问题 ,通常 可 以 采取 的 方法 如 下 : 
(1) 使 用 验证 集 调 参 ; 
(2) 对 损失 函数 进行 正则 化 。 
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1.2.1 验证 


模型 不 能 过 拟 合 于 训练 集 ,和 否则 将 不 能 在 测试 集 上 得 到 最 优 结果 ; 但 是 否 能 直接 
以 测试 集 上 的 表现 来 选择 模型 参数 呢 ? 答案 是 否定 的 。 因 为 这 样 的 模型 参数 将 会 是 
针对 某 个 特定 测试 集 的 ,那么 得 出 来 的 评价 标准 将 会 失去 其 公平 性 ,失去 了 与 其 他 同 
类 或 不 同类 模型 相 比较 的 意义 。 

这 就 好 比 我 们 要 证 明 某 一 位 学 生 学 习 某 门 课程 的 能 力 比 别人 强 ( 模 型 算法 的 有 效 
TE) ,那么 就 要 让 他 和 其 他 学 生 听 一 样 的 课 、 做 一 样 的 练习 (相同 的 训练 集 ) ,然后 以 这 
些 学 生 没 做 过 的 题目 来 考 他 们 (测试 集 与 训练 集 不 能 交叉 ); 但 是 如 果 我 们 直接 在 测 
试 集 上 调 参 , 那 就 相当 于 让 这 个 学 生 针对 考试 题目 来 复习 ,这 样 与 其 他 学 生 的 比较 显 
然 是 不 公平 的 。 

因此 参数 的 选择 ( 即 调 参 ) 必 须 在 一 个 独立 于 训练 集 和 测试 集 的 数据 集 上 进行 ,这 
样 的 用 于 模型 调 参 的 数据 集 被 称 为 开发 集 或 验证 集 。 

然而 很 多 时 候 我 们 能 得 到 的 数据 量 非常 有 限 。 这 个 时 候 可 以 不 显 式 地 使 用 验证 
集 , 而 是 重复 使 用 训练 集 和 测试 集 , 这 种 方法 称 为 交叉 验证 。 常 用 的 交叉 验证 方法 
如 下 。 

(1) 简单 交叉 验证 。 在 训练 集 上 使 用 不 同 超 参 数 训练 ,使 用 测试 集 选 出 最 佳 的 一 
组 超 参 数 设 置 。 

(2) K- 重 交叉 验证 (K-fold Cross Validation) 。 将 数据 集 划 分 成 天 等 份 ,每 次 使 
用 其 中 一 份 作为 测试 集 ,剩余 的 为 训练 集 ; 如 此 进行 K 次 之 后 ,选择 最 佳 的 模型 。 


1.2.2 正则 化 


为 了 避免 过 拟 合 , 需 要 选择 参数 复杂 度 最 小 的 模型 。 这 是 因为 如 果 有 两 个 效果 相 
同 的 模型 ,而 它们 的 参数 复杂 度 不 相同 ,那么 匈 余 的 复杂 度 一 定 是 由 于 过 拟 合 导 致 的 。 
为 了 选择 复杂 度 较 小 的 模型 ,一 种 策略 是 在 优化 目标 中 加 入 正则 化 项 ,以 惩罚 元 余 的 
EAE. 
min L (y.$58)-- A + J (0) 
其 中 ,0 为 模型 参数 ,L(y, 了 ;0) 为 原来 的 损失 函数 ,J (0) 是 正则 化 项 ,4 用 于 调整 
正则 化 项 的 权重 。 正 则 化 项 通常 为 8 的 某 阶 向 量 范 数 。 


1.3 ”机 器 学 习 算法 分 类 


模型 与 最 优化 算法 的 选择 ,很 大 程度 上 取决 于 我 们 能 得 到 什么 样 的 数据 。 如 果 我 
们 能 得 到 的 数据 集中 ,样本 点 只 包含 模型 的 输入 x, 那么 就 需要 采用 非 监 督学 习 的 算 
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法 ; 如 果 这 些 样本 点 以 (x,y) 这 样 的 输入 -输出 二 元 组 的 形式 出 现 , 那 么 就 可 以 采用 监 
督学 习 的 算法 。 


1.3.1 监督 学 习 


在 监督 学 习 中 ,我 们 根据 训练 集 {《x”,y”)} 社 ;中 的 观测 样本 点 来 优化 模型 
CO ,使 得 给 定 测试 样 例 x 作为 模型 输入 ,其 输出 3 尽 可 能 接近 正确 输出 y s 

监督 学 习 算法 主要 适用 于 两 大 类 问题 : 回归 和 分 类 。 这 两 类 问题 的 区 别 在 于 : 
回归 问题 的 输出 是 连续 值 ,而 分 类 问题 的 输出 是 离散 值 。 


1. 回归 


回归 间 题 在 生活 中 非常 常见 ,最 简单 的 例如 一 个 连续 函数 的 拟 合 。 

回归 问题 中 通常 使 用 均 方 损失 函数 来 作为 度量 模型 效果 的 指标 ,最 简单 的 求解 例 
子 是 最 小 二 乘法 。 

第 2 章 将 介绍 常见 的 几 种 回归 模型 。 


2. 分 类 


分 类 问题 也 是 生活 中 非常 常见 的 一 类 问题 ,例如 我 们 需要 从 金融 市 场 的 交易 记录 
中 分 类 出 正常 的 交易 记录 以 及 潜在 的 恶意 交易 。 

度量 分 类 问题 的 指标 通常 为 准确 率 (Accuracy) : 对 于 测试 集中 忆 个 样本 ,有 个 
被 正确 分 类 ,D 一 k 个 被 错 误 分 类 , 则 准确 率 为 : 


Accuracy = E 


然而 在 一 些 特殊 的 分 类 问题 中 ,属于 各 类 样本 的 值 并 不 是 均一 分 布 , 甚 至 其 出 现 
概率 相差 很 多 个 数量 级 ,这 种 分 类 问题 称 为 不 平衡 类 问题 。 在 不 平衡 类 问题 中 ,准确 
率 并 没有 多 大 意义 。 例 如 ,检测 一 批 产 品 是 否 为 次 品 时 , 若 次 品 出 现 的 频率 为 1%, 那 
么 即使 某 个 模型 完全 不 能 识别 次 品 ,只 要 每 次 都 “ 蒙 "* 这 件 产品 不 是 次 品 , 仍 然 能 够 达 
到 99% 的 准确 率 。 显 然 我 们 需要 一 些 别 的 指标 。 

通常 在 不 平衡 类 问题 中 ,我 们 使 用 FF 度量 来 作为 评价 模型 的 指标 。 以 二 元 不 平 
衡 分 类 问题 为 例 , 这 种 分 类 问题 往往 是 异常 检测 ,模型 的 好 坏 往往 取决 于 能 否 很 好 地 
检 出 异常 ,同时 尽 可 能 不 误 报 异 常 。 定 义 占 样 本 少数 的 类 为 正 类 (Positive Class). tH 
样本 多 数 的 为 负 类 (Negative Class) ,那么 预测 只 可 能 出 现 以 下 4 种 情况 。 

CD 将 正 类 样本 预测 为 正 类 (True Positive. TP); 

(2) 将 负 类 样本 预测 为 正 类 (False Positive. FP) ; 

(3) 将 正 类 样本 预测 为 负 类 (False Negative, FN); 

(4) 将 负 类 样本 预测 为 负 类 (True Negative, TN). 

定义 召回 率 (Recall) 为 : 
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召回 率 度量 了 在 所 有 的 正 类 样本 中 模型 正确 检 出 的 比率 ,因此 也 称 为 查 全 率 。 
定义 精确 率 (Precision) 为 : 


R 


p= (TP 
~ TTPI+ [FPT 
精确 率 度量 了 在 所 有 被 模型 预测 为 正 类 的 样本 中 正确 预测 的 比率 ,因此 也 称 为 查 
准 率 。 
下 度量 则 是 在 召回 率 与 精确 率 之 间 取 调和 平均 数 ; 有 时 候 在 实际 问题 上 , 若 更 加 
看 重 其 中 某 一 个 度量 ,还 可 以 给 它 加 上 一 个 权 值 a, 称 为 F,- 度 量 : 


F, = (1 +a" )RP 
. R+aP 





特殊 地 , 当 a 二 1 时 ,有 : 

可 以 看 到 ,如 果 模 型 “不 够 警觉 ”, 没 检测 出 一 些 正 类 样本 ,那么 召回 率 就 会 受 损 ; 
而 如 果 模 型 倾向 于 “ 滥 杀 无 束 ”, 那 么 精确 率 就 会 下 降 。 因 此 较 高 的 广度 量 意味 着 模 
型 倾向 于 “不 冤枉 一 个 好 人 ,也 不 放 过 一 个 坏人 ”, 是 一 个 较为 适合 不 平衡 类 问题 的 
指标 。 

可 用 于 分 类 问题 的 模型 很 多 ,例如 Logistic 回归 分 类 器 .决策 树 、 支 持 向 量 机 、 感 
知 机 、 神 经 网 络 等 。 本 书 将 在 第 2.4.5 章 和 第 7 章 对 以 上 算法 进行 介绍 。 


1.3.2 非 监 督学 习 


在 非 监督 学 习 中 ,我们 的 数据 集 {x'” 1 5s 中 只 有 模型 的 输入 ,而 并 不 提供 正确 的 
输出 y” 作 为 监督 信号 。 

非 监督 学 习 通 常用 于 这 样 的 分 类 问题 : 给 定 一 些 样本 的 特征 值 ,而 不 给 出 它们 正 
确 的 分 类 ,也 不 给 出 所 有 可 能 的 类 别 ; 而 是 通过 学 习 确 定 这 些 样 本 可 以 分 为 哪些 类 
别 \ 它 们 各 自 都 属于 哪 一 类 。 这 一 类 问题 称 为 聚 类 ,将 在 第 9 章 中 介绍 。 

非 监 督学 习 得 到 的 模型 的 效果 应 该 使 用 何 种 指标 来 衡量 呢 ? 由 于 通常 没有 正确 
地 输出 y, 我 们 采取 一 些 其 他 办 法 来 度量 其 模型 效果 。 

(1) 直观 检测 ,这 是 一 种 非 量 化 的 方法 。 例 如 ,对 文本 的 主题 进行 聚 类 ,可 以 在 直 
观 上 判断 属于 同一 个 类 的 文本 是 否 具有 某 个 共同 的 主题 ,这 样 的 分 类 是 否 有 明显 的 语 
义 上 的 共同 点 。 由 于 这 种 评价 非常 主观 ,通常 不 采用 。 

(2) 基于 任务 的 评价 。 如 果 聚 类 得 到 的 模型 被 用 于 某 个 特定 的 任务 ,可 以 维持 该 
任务 中 其 他 的 设 定 不 变 ,而 使 用 不 同 的 聚 类 模型 ,通过 某 种 指标 度量 该 任务 的 最 终结 
果 来 间接 判断 聚 类 模型 的 优 劣 。 

(3) 人 工 标注 测试 集 。 有 时 候 采用 非 监督 学 习 的 原因 是 人 工 标注 成 本 过 高 ,导致 
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标注 数据 缺乏 ,只 能 使 用 无 标注 数据 来 训练 。 在 这 种 情况 下 ,可 以 人 工 标注 少量 的 数 
据 作为 测试 集 , 用 于 建立 量化 的 评价 指标 。 


习题 


1. 除了 本 章 中 提 到 的 方法 ,还 有 什么 办 法 可 以 防止 过 拟 合 的 发 生 ? 
2. 是 否 训练 数据 量 越 大 , 越 能 得 到 良好 的 模型 ? 为 什么 ? 


回归 是 指 这 样 一 类 问题 ,通过 统计 分 析 一 组 随机 变量 zi ,zz sn ,xz, 与 男 一 组 随机 
AERE vis yo tts 之 间 的 关系 ,得 到 一 个 可 靠 的 模型 ,使 得 对 于 给 定 的 x={zi， 
ag ttes) ,可 以 利用 这 个 模型 对 y (yn ,ys，… ,ys) 进 行 预测 。 在 这 里 ,随机 变量 as 
a etn, 称 为 自 变量 ,随机 变量 wm ,ys env, 称 为 因 变 量 。 

不 失 一 般 性 ,我们 在 本 章 讨论 回归 问题 的 时 候 , 总 是 假设 因 变量 只 有 一 个 。 这 是 
因为 我 们 假设 各 因 变 量 之 间 是 相互 独立 的 ,因而 多 个 因 变 量 的 问题 可 以 分 解 成 多 个 回 
归 问 题 加 以 解决 。 在 实际 求解 中 ,只 需要 使 用 比 本 章 推导 公式 中 的 参数 张 量 更 高 一 阶 
的 参数 张 量 即 可 以 很 容易 推广 到 多 因 变 量 的 情况 。 

形式 化 地 ,在 回归 中 我 们 有 一 些 数据 样本 {(x” ,y” 325. ,通过 对 这 些 样 本 进行 
统计 分 析 , 获 得 一 个 预测 模型 (CO ,使 得 对 于 测试 数据 x nsa ns) ,可 以 得 到 
一 个 较 好 的 预测 值 : 

y= f(x) 

回归 问题 在 形式 上 与 分 类 问题 十 分 相似 ,但 是 在 分 类 问题 中 预测 值 y 是 一 个 离散 
变量 , 它 代 表 着 通过 特征 x 所 预测 出 来 的 类 别 ; 而 在 回归 问题 中 ,y 是 一 个 连续 变量 。 

在 本 章 中 , 先 介绍 线性 回归 模型 ,然后 推广 到 广义 的 线性 模型 ,并 以 Logistic 回归 
为 例 分 析 广义 线性 回归 模型 。 


2.1 线性 回归 


线性 回归 模型 是 指 /(*) 采 用 线性 组 合 形式 的 回归 模型 。 对 于 第 i 个 因 变 量 ri， 
乘 以 权重 系数 rw , 取 y 为 因 变量 的 线性 组 合 : 
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37 三 (x) 王 zz 十 zzz 十 … 十 ronzn 十 0 
其 中 ,6 为 常数 项 。 若 令 w 二 (wi ,tws，… ,tw,), 则 上 式 可 以 写成 向 量 形式 : 
y= f(x)=w"x+b 

可 以 看 到 ,w Ab 决定 了 回归 模型 1(*) 的 行为 。 由 数据 样本 得 到 w flo 有 许多 方 
法 ,例如 最 小 二 乘法 、 梯 度 下 降 法 。 这 里 介绍 最 小 二 乘法 求解 线性 回归 中 参数 估计 的 
问题 。 

直觉 上 ,我 们 希望 找到 这 样 的 w 和 ,使 得 对 于 训练 数据 中 每 一 个 样本 点 (xm ， 
y?) ,预测 值 f(x" ) 与 真实 值 >” 尽 可 能 接近 。 于 是 需要 定义 一 种 “接近 ?程度 的 度 
量 , 即 误差 函数 。 这 里 采用 平均 平方 误差 (Mean Square Error) 作 为 误差 函数 : 

E= 2) [yx — (a +6)] 

为 什么 要 选择 这 样 一 个 误差 函数 呢 ? 这 是 因为 我 们 做 了 这 样 的 假设 : 给 定 x, 

y 的 分 布 服从 如 下 高 斯 分 布 (如 图 2. 1 所 示 ): 
p(y | x) N(wix+t+b,0) 

直观 上 ,这 意味 着 在 自 变量 x 取 某 个 确定 值 的 时 候 , 我 们 的 数据 样本 点 以 回归 模 
型 预测 的 因 变量 y 为 中 心 .以 o^ 为 方差 呈 高 斯 分 布 。 
Conditional | al 


Gaussians | . . 
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2.1 条 件 概率 服从 高 斯 分 布 








基于 高 斯 分 布 的 假设 ,我们 得 到 条 件 概率 p(y|x) 的 对 数 似 然 函数 : 


L(w.b)— log (Tex ie (9/9 — wie -)) 
[Um 








L(w.b) E 2n (y? — wx" — py? 
做 极 大 似 然 估 计 : 
w.b = argmaxL (wb) 


由 于 对 数 似 然 函数 中 o 为 常数 , 极 大 似 然 估计 可 以 转化 为 
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web = argmin >) (59 —w'x? — b)? 
这 就 是 我 们 选择 平方 平均 误差 函数 作为 我 们 的 误差 函数 的 概率 解释 。 
我 们 的 目标 就 是 要 最 小 化 这 样 一 个 误差 函数 已 ,具体 做 法 可 以 令 E 对 于 参数 w 
和 2 的 偏 导数 为 0。 由 于 我 们 的 问题 变 成 了 最 小 化 平均 平方 误差 ,因此 习惯 上 这 种 通 
过 解析 方法 直接 求解 参数 的 做 法 称 为 最 小 二 乘法 。 
为 了 方便 矩阵 运算 ,我 们 将 已 表示 成 向 量 形式 , 令 





b=| .|, bb =h ==, 


则 已 可 表示 为 : 





E = (Y — Xw" — b)! (Y — Xw" — b) 
由 于 4b 的 表示 较为 烦琐 ,不 妨 更 改 一 下 w 的 表示 ,将 5b 视 为 常数 1 的 权重 , 令 : 


w= (ws Ward) 





相应 地 ,对 XX 做 如 下 更 改 : 
af? 3] a c a 
af 


gm 
gaal 


x”; ‘| m M ® 1 


E = (Y — XwT )' (Y — Xw’) 
XE PRAG E RSX w 的 偏 导数 ,得 到 : 


9E _ 3 yt T 
Iw 2X (Xw Y) 





WW E 可 表示 为 : 


令 偏 导 为 0, 得 到 
w= (X'X)' XY 
因此 对 于 测试 向 量 *, 根 据 线性 回归 模型 预测 的 结果 为 
y= 209 ay wy 








nasa 


2.2 Logistic 回归 


在 2.1 节 中 ,我 们 假设 随机 变量 a ,…,zx, 与 y 之 间 的 关系 是 线性 的 。 但 在 实际 
中 ,通常 会 遇 到 非 线性 关系 。 这 个 时 候 ,可 以 使 用 一 个 非 线性 变换 e Co ,使 得 线性 回 
归 模 型 f(.) 实 际 上 对 g(y) 而 非 y 进行 拟 合 , 即 : 
»-7g'(f(x)) 
其 中 ,/(*) 仍 为 : 
f(x)= wx +b 
因此 这 样 的 回归 模型 称 为 广义 线性 回归 模型 。 
广义 线性 回归 模型 使 用 非常 广泛 。 例 如 在 二 元 分 类 任务 中 ,我们 的 目标 是 拟 合 这 
样 一 个 分 离 超 平面 /(x) 二 wx 十 b, 使 得 目标 分 类 y 可 表示 为 以 下 阶 跃 函数 : 
0, F< 


1, f(x) >0 

但 是 在 分 类 问题 中 ,由 于 y 取 离 散 值 ,这 个 阶 跃 判别 函数 是 不 可 导 的 。 不 可 导 的 
性 质 使 得 许多 数学 方法 不 能 使 用 。 我 们 考虑 使 用 一 个 函数 ol) 来 近似 这 个 离散 的 阶 
跃 函数 ,通常 可 以 使 用 Logistic 函数 或 tanh 函数 。 

这 里 就 Logistic 函数 (如 图 2. 2 所 示 ) 的 情况 进行 讨论 。 令 

1 

1+exp (— 2x) 
| 


o(xr)= 
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2.2 Logistic 函数 


使 用 Logistic 函数 蔡 代 阶 跃 函数 : 


ef (x))= A 


T+ exp (一 wx 一 0 
并 定义 条 件 概率 : 
p(y=1|x)=o(f(x)) 
p(y =0| a= 1—o(f(x)) 
这 样 就 可 以 把 离散 取 值 的 分 类 问题 近似 地 表示 为 连续 取 值 的 回归 问题 ; 这 样 的 
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回归 模型 称 为 Logistic 回归 模型 。 
在 Logistic 函数 中 g^! (7) —6(r) EE g COXXSIBON g (y) —log 这 的 形式 并 


移 到 等 式 一 侧 ,得 到 : 


b(y-1lx).. T 
pooja "*** 


为 了 求 得 Logistic 回归 模型 中 的 参数 w ALD. FAI AE RE p(ylx wb) OR 
大 似 然 估计 。 
p(y lx; wb) KIRT RDS PR BOW : 


L(w.b)= log( I tec£ o1 


( 
x 


" pisce? 1" ) 
Bp. 
L(w.b)— >) Ly log(a( f(x )))9- (1 5? )log(1 —e(f (x? )))] 
dica ka FH s GTR EPR BH — FET SR. 
似 然 函 数 L(w,6) 的 最 大 化 问题 直接 求解 比较 困难 ,我 们 可 以 采用 数值 方法 。 常 
用 的 方法 有 牛顿 迭代 法 ,梯度 下 降 法 等 。 


习题 


1. 推导 Logistic 回归 的 损失 函数 。 

2. 试 将 二 元 分 类 的 Logistic 函数 推广 到 多 元 分 类 问题 。 

3. Logistic 回归 的 权重 w 会 无 限 上 升 吗 ? 如 果 会 ,应 当 如 何 解决 ?如 果 不 会 ,为 
ft^? 


LDA 主 题 模型 






3.1 LDA 简介 


LDA(Latent Dirichlet Allocation) 是 一 种 文档 主题 生成 模型 ,也 称 为 一 个 三 层 贝 
叶 斯 概率 模型 ,包含 词 .主题 和 文档 三 层 结构 ,由 Blei. David M. Ng. Andrew Y. Jordan 
在 2003 年 提出 。 该 模型 可 以 将 文档 集中 每 篇 文档 的 主题 以 概率 分 布 的 形式 给 出 ,从 
而 通过 分 析 一 些 文档 抽取 出 它们 的 主题 分 布 出 来 后 , 便 可 以 根据 主题 分 布 进行 主题 聚 
类 或 文本 分 类 。 同 时 , 它 采 用 词 袋 的 方法 ,这 种 方法 将 每 一 篇 文档 视 为 一 个 词 频 向 量 ， 
从 而 将 文本 信息 转化 为 易于 建 模 的 数字 信息 。 但 是 词 袋 方法 没有 考虑 词 与 词 之 间 的 
顺序 ,这 简化 了 问题 的 复杂 性 ,同时 也 为 模型 的 改进 提供 了 契机 。 

在 LDA 主题 模型 中 ,一 篇 文档 包含 多 个 主题 ,而 文档 中 的 每 一 个 词 都 由 其 中 的 
一 个 主题 生成 ,而 人 类 生成 文档 的 过 程 则 是 : 文档 中 的 每 个 词 都 是 通过 “以 一 定 概率 
选择 了 某 个 主题 ,并 从 这 个 主题 中 以 一 定 概率 选择 了 某 个 词语 ”。 

LDA 主题 模型 的 三 位 作者 在 原始 论文 中 给 了 一 个 简单 的 例子 。 首 先 给 定 了 4 个 
主题 : Arts, Budgets, Children 和 Education, 然 后 通过 学 习 训 练 ,获取 每 个 主题 对 应 
的 词语 ,如 图 3. 1 所 示 。 

然后 以 一 定 概率 选取 上 述 4 个 主题 中 的 某 个 主题 ,再 以 一 定 概率 选取 那个 主题 下 
的 某 个 单词 ,不 断 地 重复 这 两 步 ,最 终生 成 如 图 3. 2 所 示 的 一 篇 文章 。 

当 我 们 看 到 一 篇 文档 后 ,往往 会 推测 这 篇 文档 想 要 表达 的 是 什么 主题 ,而 且 我 们 
可 能 也 会 认为 作者 是 先 确定 这 篇 文章 的 几 个 主题 ,然后 围绕 这 几 个 主题 进行 遗 词 造 
句 ,表达 成 文 的 。 而 LDA 的 任务 就 是 : 根据 给 定 的 一 篇 文档 ,推测 其 主题 分 布 。 一 般 
来 说 ,假定 认为 人 们 都 是 根据 上 述 文档 生成 过 程 写成 了 各 种 各 样 的 文章 ,现在 某 一 部 
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“Arts” “Budgets” “Children” “Education” 
NEW MILLION CHILDREN SCHOOL 

FILM TAX WOMEN STUDENTS 
SHOW PROGRAM PEOPLE SCHOOLS 
MUSIC BUDGET CHILD EDUCATION 
MOVIE BILLION YEARS TEACHERS 
PLAY FEDERAL FAMILIES HIGH 
MUSICAL YEAR WORK PUBLIC 

BEST SPENDING PARENTS TEACHER 
ACTOR NEW SAYS BENNETT 
FIRST STATE FAMILY MANIGAT 
YORK PLAN WELFARE NAMPHY 
OPERA MONEY MEN STATE 
THEATER PROGRAMS PERCENT PRESIDENT 
ACTRESS GOVERNMENT CARE ELEMENTARY 
LOVE CONGRESS LIFE HAITI 








图 3.1 主题 及 其 对 应 词语 


分 人 想 让 计算 机 用 LDA 干 一 件 事 : 计算 机 推测 分 析 网 络 上 的 各 篇 文章 都 写 了 哪些 主 
题 , 且 计算 各 篇 文章 中 各 个 主题 出 现 的 概率 大 小 ( 即 主题 分 布 ) 。 


The William Randolph Hearst Foundation will give $1.25 million to Lincoln Center, Metropoli- 
tan Opera Co. New York Philharmonic and Juilliard School. "Our boerd felt that we had a 
real opportunity to make a mark on the future of the performing arts with these grants an act 


every bit as important as our traditional areas of support in health, medical research, education 
and the social services,” Hearst Foundation President Randolph A. Hearst said Monday in 
announcing the grants. Lincoln Center's share will be $200,000 for its new building, which 





the performing arts are taught, will get $250,000. The Hearst Foundation, a Supporter 
of the Lincoln Center Consolidated Corporate Fund, will make its usual annual $100,000 
donation, too. 





图 3.2 生成 的 文档 
3.2 数学 基础 


3.2.1 多 项 分 布 


我 们 很 熟悉 的 二 项 分 布 , 即 n 重 伯 努 利 实验 , 记 为 
X~b(n,p) (3.1 
二 项 分 布 的 概率 密度 函数 为 : 











P(X —k) (e o py* 一 b(ksnsp) (3.2) 


EH, k=0,1,2, n. 
而 多 项 分 布 是 二 项 分 布 扩展 到 多 维 的 情况 , 即 指 单 次 实验 中 的 随机 变量 的 取 值 不 
再 是 0 一 1 ,而 是 有 多 种 离散 值 (1,2,3,…,)。 多 项 式 的 概率 密度 函数 为 : 
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UE 


! 
P (21 sze t animi spes Pe) = e Pt PB (3.3) 
le ke 


其 中 ， 


Ma =n m 


该 公式 表示 , 单 次 实验 可 能 会 ! 1 现 A Assn A, 一 共 k 种 结果 ,k 种 结果 的 概率 
分 布 分 别 是 pi ,ps，… pi ,而 进行 nn 次 实验 后 ,Ai HERE a 次 ,A; 出 现 zs Wore Ar 出 
3l x, 次 这 种 情况 的 概率 。 


3.2.2 Dirichlet 分 布 
在 了 解 Dirichlet 分 布 之 前 , 先 简单 复习 一 下 相对 熟悉 的 Beta 分 布 。 


Beta 是 指 一 组 定义 在 区 间 [0,1] 的 连续 概率 分 布 ,有 两 个 参数 a Me, H a p>0, 
Beta 分 布 可 以 看 作 一 个 概率 的 概率 分 布 , 当 一 个 东西 的 具体 概率 未 知 时 , 它 可 以 描述 





其 所 有 概率 出 现 的 可 能 性 大 小 。 
Beta 分 布 的 概率 密度 函数 是 : 
f (x32) — = dt di 
| u*! (1—u)*!du 
= T'(a--g) “a—l — rM 
“Tree 0 0" 
"un ay? (3.4) 
其 中 的 工 便 是 T(z) 函数 : 
T(r)- Le edt (3.5) 
随机 变量 X 服从 参数 为 a,B 的 Beta 分 布 通常 写作 : 
X — Be(a.f) (3.6) 


其 数学 期 望 ECX) 一 了 


而 Dirichlet 分 布 是 Beta 分 布 在 高 纬度 上 的 推广 ,是 一 组 连续 多 变量 概率 分 布 ,是 
多 变量 普遍 化 的 Beta 分 布 ,为 了 纪念 德国 数学 家 约翰 。 彼 得. 古 斯 塔 夫 ， 勒 热 纳 。 
狄 利克 雷 (Johann Peter Gustav Lejeune Dirichlet) 而 命名 。 甚 密度 函数 同 Beta 分 布 
的 密度 函数 形式 相似 ,所 以 Dirichlet 分 布 的 概率 密度 函数 为 : 


K 
S (xi sx ttt 501502 21324 ) — nol (3.7) 
其 中 ， 
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B(a)2 ————, Dr=1, x0 (3.8) 











E(X) | z , = penis E | 
Ma a; 3a 


1 i=l i-l 


3.2.3 HREM 


概念 : 在 贝 叶 斯 概率 理论 中 , 设 0 是 总 体 分 布 中 的 参数 或 者 参数 向 量 , 户 (0) 是 0 
的 先 验 密度 函数 ,假如 由 抽样 信息 算得 后 验 密度 函数 p (01 c) 53 p (0) 具 有 相同 的 函数 
形式 , 则 称 p (0) 26 0 D) 3g jede fn 

举例 来 说 : 设 一 事件 A 的 概率 p (A) —0. © 是 未 知 量 , 需 要 先 确 定 先 验 概率 
(0)。 在 没有 其 他 信息 前 ,一 种 不 失 偏 颇 的 先 验 估计 是 ,认为 0 在 (0,1) 上 均匀 分 布 。 

为 了 估计 9 的 值 ,做 次 抽样 ,其 中 ,事件 A 发 生 的 次 数 为 X ,显然 X 服从 二 项 分 
di X —b(n.0) ik. 


b(x|0)— (Cy (1-8) (3.9) 
x 
由 此 ,可 以 计算 得 到 联合 概率 分 布 (x9): 
b(r.0)— p(x | 0)p(0) (3. 10) 


通过 联合 概率 分 布 积分 求 得 边缘 分 布 (x) 
pon) - [octo 


ifn 
-| ( y (1—0)"*d60 
or 


| DP Geet 1) 








T(n+2) (3.11) 
综 上 所 述 , 利 用 贝 叶 斯 公式 可 得 0 的 后 验 分 布 p (012) : 
bes) 
b( | x) b) 
T(n+2) gta (1 gje- (3.12) 


T(rc1)l'(n— r1) 

恰巧 是 参数 为 (z 十 1) 和 (2z 一 z 十 1) 的 Beta 分 布 , 即 p (01x) ~Be(at+1.n—2+1). 

同时 ,区 间 (0,1) 上 的 均匀 分 布 也 是 一 种 特殊 的 Beta 分 布 Be(1,1)。 先 验 分 布 同 后 验 
分 布 属于 一 个 分 布 族 , 故 称 该 分 布 族 是 0 B ES e d OO 。 

通过 上 述 例子 ,体现 出 了 Beta 分 布 的 另 一 个 性 质 , 即 : Beta 分 布 是 二 项 式 分 布 的 


7@ 








EPI 


dte FCI. RR MRT —390 4) h 0 选取 的 先 验 分 布 是 Beta 分 
布 ,那么 以 0 为 参数 的 二 项 分 布 用 贝 叶 斯 估计 得 到 的 后 验 分 布依 然 服从 Beta 分 布 。 
按照 贝 叶 斯 派 思考 问题 的 模式 ， 
先 验 分 布 x(0) 十 样本 信息 Xo 后 验 分 布 x(0 | x) 
这 一 性 质 可 表示 成 : 
Beta(@ | a,B)+ Count (m snz ) — Beta(0 | a +n B+ n) (3.132 
其 中 ,nm 表示 二 项 分 布 中 成 功 的 次 数 ,n, 表示 失败 的 次 数 。 
而 Dirichlet 分 布 也 有 类 似 的 性 质 , 即 Dirichlet 4} 6 J& 4 IH Sk 437i AY FE fü Jf e; E 
率 。 按 照 贝 叶 斯 推理 逻辑 ,这 一 性 质 可 表达 成 : 
Dir(Ó | č )-- MultCount ( ) — Dir(Ü | à +7) (3.14) 
FE FAS THEE Jc ds 27 Jr; s AE GER RE rU T Er AY) " Beta 分 布 可 以 看 作 一 个 概率 的 概 
率 分 布 ”, 同 样 Dirichlet 分 布 可 以 看 作 多 项 分 布 的 分 布 ,所 以 Dirichlet 分 布 出 现 的 场 
景 ,多 用 于 生成 多 项 分 布 ,因为 Dirichlet 分 布 得 到 的 向 量 各 个 分 量 的 和 是 1, 这 个 向 量 
可 以 作为 多 项 分 布 的 参数 。 
而 先 验 概率 取 为 共 e 先 验 的 好 处 在 于 : 每 当 有 新 的 观测 数据 时 ,就 把 上 次 的 后 验 
概率 作为 先 验 概率 , 乘 以 新 数据 的 概率 值 , 然 后 就 得 到 新 的 后 验 概率 ,而 不 必用 先 验 概 
率 乘 以 所 有 数据 的 概率 值得 到 后 验 概率 。 


3.3 LDA 主题 模型 


定义 : o 表示 词 ,V 表示 所 有 单词 的 个 数 ; < 表示 主题 ,k 是 主题 的 个 数 ,k 通过 事 
FRE; w= Cor soe et ,wn) 表 示 文档 ,其 中 ,NN 表示 文档 中 的 词 数 ,N 是 一 随机 变量 ; 
D= Cus ,rws，… ,twm) 表 示 语料库 或 者 文档 集 , 其 中 ,M 表示 语料库 中 的 文档 数 。 


3.3.1 基础 模型 


1. Unigram Model 


该 模型 使 用 如 下 方法 生成 一 个 文档 w: 


for each of the N words wn: 


choose a word w,~p(w) 


对 于 文档 w= (a, ,ws，… ,wn) ,用 p(w) 表示 单 词 w 的 分 布 , 一 般 可 通过 语 料 进行 
统计 学 习 得 到 ,生成 文档 w 的 概率 为 : 


p(w)= TI pe) (3.15) 
该 模型 通过 语 料 获得 一 个 单词 的 概率 分 布 函数 ,然后 根据 这 个 概率 分 布 函数 每 次 
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生成 一 个 单词 ,使 用 这 个 方法 M 次 , 即 可 生成 M 个 文档 。 其 图 模型 如 图 3. 3 所 示 。 





w 








N 





M 





图 3.3 Unigram Model 


2. Mixture of Unigram 


Unigram 模型 的 缺点 就 是 生成 的 文本 没有 主题 ,过 于 简单 , Mixture of Unigram 
模型 进行 了 改进 ,该 模型 使 用 下 面 的 方法 生成 文档 w: 


Choose a topic z~p(z); 
For each of the N words w,: 
Choose a word wa ~p (wlz); 


其 中 ,x 表示 一 个 主题 ,p (x) 表示 主题 的 概率 分 布 ,x 通过 p (x) 按 概率 产生 ; 
p(w|z) 表 示 给 定 x 时 w 的 分 布 ,可 以 看 成 一 个 kXV 的 和 矩阵, 为 主题 的 个 数 ,V 为 单 
词 的 个 数 ,每 行 表示 这 个 主题 对 应 的 单词 的 概率 分 布 , 即 主题 > 所 包含 的 各 个 单词 的 
概率 ,通过 这 个 概率 分 布 按 一 定 概率 生成 每 个 单词 。 

假设 有 主题 x ,x;,… z ,生成 文档 w 的 概率 为 ; 


N N 
p(w)=p(a) HE pion | a) + oO Bo | x) 
n=1 n=l 


=Le@ Tec |z) (3.16) 

图 模型 见 图 3.4, 从 图 中 可 以 看 出 ,= 在 w 所 在 长 方形 的 外 面 ,表示 < 生成 一 份 N 

个 单词 的 文档 时 主题 > 只 生成 一 次 , 即 只 允许 一 个 文档 只 有 一 个 主题 ,这 不 符合 常规 
情况 ,通常 一 个 文档 可 能 包含 多 个 主题 。 

















3.4 Mixture of Unigram 


3.3.2 PLSA 模型 


作为 和 LDA 模型 最 接近 的 PLSA 模型 ,理解 PLSA 模型 后 ,理解 LDA 模型 就 相 
当 容 易 了 一 一 给 PLSA 加 上 贝 叶 斯 框架 , 便 是 LDA. 


1 © 





[机 器 学 习 基础 


1. PLSA 模型 生成 文档 过 程 


定义 : p(q;) 表 示 文 档 集 或 语料库 中 某 篇 文档 被 选中 的 概率 ; p (cw; |d; ) 表 示 词 o; 
在 给 定 文档 d; 中 出 现 的 概率 ; p (zi ld: ) 表 示 具 体 某 个 主题 z, 在 给 定 文档 d, 下 出 现 
的 概率 ; plola) RREN o; 在 给 定 主题 x 下 出 现 的 概率 ,与 主题 关系 越 密切 的 
词 ,其 条 件 概率 bo; |e ) 越 大 。 

其 中 ,p(w 1di;) 可 用 词语 w; 在 文档 d: 中 出 现 的 次 数 除 以 文档 中 单词 的 总 数目 计 
算得 到 。 

于 是 ,PLSA 模型 生成 文档 的 步骤 如 下 。 

(1) 按照 概率 p(d;) 选 择 一 篇 文档 d;; 

(2) 选 定 文档 d; 后 ,从 主题 分 布 中 按照 概率 p (zs 1d; ) 选 择 一 个 隐 含 的 主题 类 
Beas 

(3) 选 定 xe 后 ,从 词 分 布 中 按照 概率 p (wj lz HEFE— I w 

(4) 重复 (2) 和 (3) 两 个 步骤 ,重复 N 次 (产生 N 个 词 ) ,完成 一 篇 文档 ; 

(5) 重复 以 上 步骤 M 次 ,完成 M 篇 文档 。 

下 面 举 个 例子 来 详细 说 明 一 下 这 个 过 程 。 

第 一 步 , 首 先 要 确定 写 一 篇 文档 ,假定 这 个 文档 探讨 的 是 有 关 社 会 问题 ,而 探讨 社 
会 问题 时 ,往往 会 从 经济, 文化, 人口 三 方面 人手; 而“ 经济” 相关 的 词 假定 是 “市 场 ， 
企业 ,货币 ,文化 "相关 的 词 假定 是 “教育 ,书籍 ,电影 “人口 ? 相 关 的 词 假定 是 “男女 
比例 ,人 口 增长 ,地 区 分 布 ”。 

第 二 步 , 每 写 一 个 词 , 先 从 三 个 主题 中 选择 一 个 ,再 从 选 定 的 主题 对 应 的 词语 中 选 
择 要 写 的 词 。 

具体 来 说 ,首先 假设 以 一 定 的 概率 选择 的 主题 是 “经 济 ”, 然 后 以 一 定 概率 选择 了 
主题 “经 济 ? 相 关 的 三 个 词语 之 一 ,假设 为 "市场 ”。 

那么 是 如 何 选择 的 呢 ? 其 实 是 随机 选取 的 ,只 是 这 个 随机 遵循 一 定 的 概率 分 
布 。 比 如 在 这 篇 文档 中 ,三 个 主题 的 概率 分 布 就 是 { 经 济 : 0.5, 文 化 : 0.3, A Hs 
0. 2) ,这 种 每 个 主题 z 在 文档 d 中 出 现 的 概率 分 布 ,被 定义 为 主题 分 布 , 且 是 一 个 多 
项 分 布 。 

同 理 , 每 个 主题 下 的 词语 也 有 一 定 的 概率 分 布 , 例 如 “经济 ?下 的 三 个 词 的 概率 分 
布 {市 场 : 0.4, 企 业 : 0.3, 货 币 : 0.3}, 这 种 每 个 词语 w 在 主题 x 下 出 现 的 概率 分 布 ， 
被 定义 为 词 分 布 , 且 同样 是 一 个 多 项 分 布 。 

所 以 , 选 主题 和 选 词 都 是 随机 的 两 个 过 程 。 先 从 主题 分 布 中 抽取 主题 : 经 济 , 然 
后 从 该 主题 对 应 的 词 分 布 中 抽取 词 : 市 场 。 

第 三 步 , 不 停 地 重复 第 二 步 ,重复 N 次 ,完成 一 篇 文档 。 


2. 根据 已 有 文档 推测 主题 分 布 
主题 建 模 的 目的 是 ,通过 已 有 的 文档 推断 其 隐藏 的 主题 分 布 的 过 程 ,自动 地 
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发 现 文档 集中 的 主题 分 布 。 即 文档 d 和 单词 w 是 可 被 观察 到 的 ,而 主题 > 是 隐 
藏 的 。 

如 图 3. 5 所 示 ( 图 中 被 涂 色 的 dw 表示 可 观测 变量 ,未 被 涂 色 的 = 表示 未 知 的 隐 
变量 ,N 表示 一 篇 文档 中 总 共有 N 个 单词 ,M 表示 M 篇 文档 ) 。 














d 2 won 





M 








图 3.5 PLSA/aspect model 


由 于 文档 d 和 单词 w 是 我 们 得 到 的 样本 ,所 以 对 任何 一 篇 文档 ,其 如 (w 1d; EB 
知 的 ,从 而 根据 大 量 已 知 的 文档 - 词 项 信息 p (wi1d;) ,训练 出 文档 -主题 p (zi 1di), 以 
及 主题 - 词 项 p(w lz) ,如 以 下 公式 所 示 : 





K 
p(w; | di) 9 >) plo; | zi)p (2 | di) (3.17) 
k=1 


故 得 到 文档 中 每 个 词 的 生成 概率 为 : 
P (di +0; )=p(di)p (w; | di) 


K 
=p(di) >) p(w; | zi)p Cn | di) (3.18) 
k=1 


由 于 p(qdi) 可 事先 计算 得 出 ,而 p(w | ze) Al p (eldi) RA, EVA 0— Cp (wl zi ) 
b (zt1d;)) 就 是 需要 估计 的 参数 值 ,常用 的 估计 方法 有 极 大 似 然 估 计 (MLE) ,最 大 后 
验证 估计 (MAP) 、 贝 叶 斯 估计 等 ,在 这 里 考虑 用 EM 算法 。 


3.3.3 LDA 模型 


1. LDA 模型 生成 文档 过 程 


LDA 模型 就 是 在 PLSA 模型 的 基础 上 加 上 了 贝 叶 斯 框架 。 

首先 考虑 LDA 模型 和 PLSA 模型 在 生成 文档 过 程 中 的 一 个 重要 不 同 : 在 PLSA 
模型 中 ,主题 分 布 和 词 分 布 是 唯一 确定 的 ,都 是 固定 值 ,如 图 3.6 所 示 。 

在 LDA 模型 中 ,在 贝 叶 斯 框架 下 ,不 再 认为 主题 分 布 和 词 分 布 不 是 唯一 确定 的 
了 ,而 是 看 成 随机 变量 ,有 多 种 可 能 ,但 一 篇 文章 总 是 需要 对 应 一 个 主题 分 布 及 词 分 布 
的 ,于 是 ,通过 给 Dirichlet 先 验 两 个 先 验 参 数 ,为 某 一 篇 文档 抽取 出 某 个 主题 分 布 和 
词 分 布 ,如 图 3.7 所 示 。 

LDA 在 PLSA 的 基础 上 给 (p(w | ze) p (zi1d;)) 这 两 个 参数 进行 了 贝 叶 斯 化 ,加 
了 两 个 先 验 分 布 的 参数 : 一 个 是 主题 分 布 的 先 验 分 布 Dirichlet 分 布 a, 一 个 是 词 分 布 的 
先 验 分 布 Dirichlet 分 布 8。 所 以 ,LDA 的 概率 模型 图 模型 如 图 3. 8 所 示 。 

其 中 ,阴影 圆圈 表示 可 观测 的 变量 , 非 阴 影 圆圈 表示 隐 变 量 。 
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Word  p(olz) 
男女 比例 0.1 
人 口 增长 03 Doc plod) 
地 区 分 布 0.2 = a 
Topic — p(zd) = Nea 
An [o2 - 满足 教育 系统 的 形 
reat 0 态 扩张 …… 在 城 
经 济 Lu 市 ,可 以 按照 市 声 
文化 | o3 a 经 济 的 运行 规律 ， 
进行 教育 资源 的 
教育 03 ra lin 
书籍 0.4 
电影 0.1 


生成 p(zld) 的 先 验 
分 布 : Dirichlet(@) 


综 上 所 述 ,LDA 只 是 PLSA 的 贝 叶 斯 版 本 ,文档 生成 后 ,两 者 都 要 根据 文档 去 推 
断 其 主题 分 布 和 词 分 布 ,只 是 ,在 PLSA 中 ,参数 0==(p(w|zi),p(zi1d;)) 未 知 但 固 
定 ,在 LDA 中 参数 未 知 且 不 固定 ,是 个 随机 变量 ,服从 一 定 的 分 布 ,于 是 用 的 参数 估 


计 方 法 也 不 同 。 
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3.6 PLSA 生成 模型 


Word — p(olz) 












男女 比例 0.1 
人 口 增长 03 
地 区 分 布 0.2 









生成 p(w|z) 的 先 验 
分 布 : Dirichlet(p) 





图 3.7 LDA 生成 模型 








可 以 按照 市 场 经 济 
的 运行 规律 ， 进 行 
教育 资源 的 如 书 


























图 3.8 LDA 模型 图 模型 
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在 这 里 先 考虑 一 下 Dirichlet 分 布 如 何 选取 主题 分 布 和 词 分 布 , 在 之 前 提 过 
Dirichlet 分 布 是 分 布 的 分 布 ,所 以 在 这 里 Dirichlet 分 布 就 是 主题 分 布 的 分 布 和 词 分 
布 的 分 布 ,于 是 先 验 分 布 参数 的 不 同 ,将 导致 某 些 主题 分 布 / 词 分 布 被 选取 的 概率 大 于 
其 他 分 布 。 

所 以 ,LDA 模型 生成 文档 d; 的 步骤 如 下 。 

(1) 从 狄 利克 雷 分 布 a 中 取样 生成 文档 的 主题 分 布 0;; 

(2) 从 主题 的 多 项 式 分 布 9; 中 取样 生成 文档 第 j 个 词 的 主题 is 

G) 从 狄 利克 雷 分 布 8 中 取样 生成 主题 <;,; 对 应 的 词语 分 布 pq. s 

OD. 从 词语 的 多 项 式 分 布 p。 中 采样 最 终生 成 词语 wii 

(5) 重复 上 述 步骤 ,重复 N 次 ,就 产生 了 文档 di. 

换言之 : 

COD 假定 语料库 中 共有 M 篇 文章 ,每 篇 文章 下 主题 的 主题 分 布 是 一 个 从 参数 为 a 
的 Dirichlet 先 验 分 布 中 采样 得 到 的 Multinomial 分 布 ,每 个 主题 下 的 词 分 布 是 一 个 从 
参数 为 8 的 Dirichlet 先 验 分 布 中 采样 得 到 的 Multinomial 分 布 。 

(2) 对 于 某 篇 文章 中 的 第 个 词 ,首先 从 该 文章 中 出 现 的 主题 的 Multinomial 分 
布 (主题 分 布 ) 中 选择 或 采样 一 个 主题 ,然后 再 在 这 个 主题 对 应 的 词 的 Multinomial 分 
布 ( 词 分 布 ) 中 选择 或 采样 一 个 词 。 不 断 重复 这 个 随机 生成 过 程 ,直到 M 篇 文章 全 部 
生成 完成 。 


2. LDA 参数 估计 


在 PLSA 中 ,使 用 极 大 似 然 估计 的 思想 ,利用 EM 算法 估计 (p (alee), 
p(xi1d;)) 这 两 个 未 知 但 值 固定 的 参数 。 

而 在 LDA 中 ,估计 g,9 这 两 个 未 知 且 不 固定 的 参数 ,可 以 用 变 分 (Variational 
Inference)-EM 算法 ,也 可 以 用 Gibbs 采样 ,前 者 的 思想 是 最 大 后 验 估计 MAP(MAP 
与 MLE 类 似 ,都 把 未 知 参数 当 作 固 定 的 值 ), 后 者 的 思想 是 贝 叶 斯 估计 。 贝 叶 斯 估计 
是 对 MAP 的 扩展 ,但 它 与 MAP 有 着 本 质 的 不 同 , 即 贝 叶 斯 估计 把 待 估计 的 参数 看 作 
是 服从 某 种 先 验 分 布 的 随机 变量 。 

由 于 LDA 把 要 估计 的 主题 分 布 和 词 分 布 看 作 是 其 先 验 分 布 是 Dirichlet 分 布 的 
随机 变量 ,所 以 ,在 LDA 这 个 估计 主题 分 布 , 词 分 布 的 过 程 中 ,它们 的 先 验 分 布 ( 即 
Dirichlet 分 布 ) 事 先 由 人 为 给 定 , 那 么 LDA 就 是 要 去 求 它们 的 后 验 分 布 (LDA 中 可 用 


Gibbs 采样 去 求解 它们 的 后 验 分 布 ,得 到 期 望 $8. 从 。 





3.4 LDA 模型 应 用 实例 


在 本 节 中 ,将 主要 使 用 Python 2. 7 语言 结合 其 机 器 学 习 工 具 库 Gensim 进行 实际 
使 用 来 说 明 ,LDA 模型 的 输入 和 输出 分 别 是 什么 ,进一步 理解 在 LDA 模型 中 是 如 何 
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表示 文本 的 ,在 这 个 过 程 中 将 会 用 到 Gensim 库 中 的 corpora, models 和 similarities 
包 , 同 时 在 对 文本 进行 预 处 理 的 时 候 会 用 到 NLTK 自然 语言 处 理工 具 库 ,以 及 
Pandas 库 的 DataFrame 结构 。 


3.4.1 配置 安装 


1. NLTK 库 安 装配 置 


NLTK 自然 语言 工具 包 是 于 2001 年 作为 宾 州 大 学 计算 机 与 信息 科学 系 计算 语 
言 学 课程 的 一 部 分 被 创建 的 ,其 后 经 过 数 十 年 的 发 展 壮大 ,已 发 展 至 NLTK 3.0, 它 已 
经 被 广泛 应 用 作为 许多 研究 项 目的 基础 。 

NLTK 需要 Python 的 版 本 是 2.7 或 者 3. 4 以 上 ,下 面 详细 介绍 如 何在 Mac/UNIX 
和 Windows 系统 下 安装 NLTK。 

在 Mac/UNIX 上 可 以 按照 如 下 步骤 安装 。 

(1) 安装 NLTK。 在 命令 行 中 运行 代码 : sudo pip install-U nltk。 

(2) 安装 Numpy — NLTK 的 依赖 包 文件 。 在 命令 行 中 运行 : sudo pip install- 
U numpy。 

(3) 测试 NLTK 是 否 安装 成 功 。 首 先 运行 python shell ,然后 输入 import nltk 。 

在 Windows 系统 中 可 以 按照 如 下 步 又 进行 安装 。 

(1) 安装 Python 2.7。 在 https://www. python. org/downloads/ 中 下 载 Python 
2.7 32bit 版 本 进行 安装 。 

(2) 安装 Numpy。 在 https://sourceforge. net/projects/numpy/files/NumPy/ 
中 下 载 相应 的 版 本 进行 安装 。 

(3) 安装 NLTK。 在 https://pypi. python. org/pypi/nltk 中 挑选 相应 的 版 本 下 
载 NLTK 库 进行 安装 。 

(4) 测试 NLTK 是 否 安装 成 功 。 运 行 python shell, 然 后 输入 import nltk。 

安装 好 NLTK 工具 库 之 后 ,还 需 下 载 安装 相应 的 配置 ,在 Python Shell 中 运行 如 
下 语句 : 

>>> import nltk 

>>> nltk. download() 


之 后 会 出 现 一 个 窗口 ,是 NLTK 的 下 载 器 , 单 击 文件 目录 选择 需要 的 字典 进行 下 
载 , 建 议 将 字典 安装 目录 设置 为 C:\nltk_data(Windows),/usr/local/share/nltk_data 
(Mac) i /usr/share/nltk data(UNIX) 。 


2. Gensim 库 安装 配置 


Gensim 的 前 身 是 2008 年 捷克 数字 图 书馆 的 各 种 Python 脚本 的 集合 ,用 于 生成 
与 给 定 文章 最 相似 的 文章 的 简短 列表 。 
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Gensim 依赖 于 Python=2. 6,NumPy>1. 3,SciPy 宇 0.7, 所 以 在 安装 Gensim J£ 
前 应 该 先 安装 好 NumPy 和 Sci Py 这 两 个 包 , 最 后 使 用 easy. install 或 者 pip install 的 
方式 对 Gensim 库 进行 安装 。 

另外 ,由 于 之 后 的 内 容 要 使 用 Pandas 的 DataFrame 结构 ,所 以 以 同样 的 方式 安 
装 Pandas 包 。 


3.4.2 文本 预 处 理 


在 使 用 Gensim 中 的 LDA 主题 模型 前 ,需要 对 文本 进行 预 处 理 。 现 有 100 条 文 
本 ,使 用 Pandas 的 DataFrame 结构 存储 成 一 张 二 维 表 , 如 表 3. 1 所 示 。 


表 3.1 待 处 理 文本 
序号 文 本 


0 | How would the constitution handle the crisis raised at the end of White House Down? 








1 Do you think we should name proxima B? 





What are some other summer, student-oriented startup grant programs like Light Speed 


Venture Partners summer fellowship program? 





3 How is Apple Music doing (December 2015)? 





If two or more stars orbit fairly closely to each other— perhaps Sun-Mercury distance—how 


does that extend their combined habitable zone? 





5 What do people think makes a search illegal? 











99 | How do I figure out how good a doctor is? 


对 这 些 文本 利用 NLTK 自然 语言 处 理 库 进行 分 词 去 停 ,去 标点 和 词 干 化 等 预 处 
理 ,具体 方法 如 下 。 


1. 分 词 
具体 代码 和 结果 如 表 3. 2 所 示 。 
X32 预 处 理 之 分 词 





import nltk 

from nltk. tokenize import word tokenize 

texts tokenized - [ 
[word.lower() for word in word tokenize(text.decode( 'utf - 8'))] 
for text in texts 


] 
print texts tokenized 








机 器 学 习 基础 





续 表 


[[u'how', u'would', u'the', u'constitution', u'handle', u'the', u'crisis', u'raised', u'at', 
u'the', u'end', u'of', u'white', u'house', u'down', u'?'], 

[u'do', u'you', u'think', u'we', u'should', u'nane', u'proxima', u'b', u'?'], 

[u'what', u'are', u'some', u'other', u'summer', u',', u'student - oriented', u'startup', u' 
grant', u'programs', u'like', u'light', u'speed', u'venture', u'partners', u'summer', u' 
fellowship', u'progran', u'?'], 

[u'how', u'is', u'apple', u'music', u'doing', u'(', u'december', u'2015', u')', u'?'], 
[u'if', u'two', u'or', u'more', u'stars', u'orbit', u'fairly', u'closely', u'to', u'each', u'otherV 
u2014perhaps', u'sun\u2013mercury', u'distance\u2014how', u'does', u'that', u'extend', u 
'their', u'combined', u'habitable', u'zone', u'?'], 


[u'what', u'do', u'people', u'think', u'makes', u'a', u'search', u'illegal', u'?'], 


9 pom ou 


[u'how', u'do', u'i', u'figure', u'out', u'how', u'good', u'a', u'doctor', u'is', u'?'] 


] 





从 表 3. 2 中 代码 可 以 看 出 ,一 百 条 文本 均 被 分 词 处 理 , 并 全 部 小 写 化 ,每 条 文本 被 
表示 成 一 个 词 序 列 ; 而 同时 我 们 发 现 ,输出 结果 中 ,标点 符号 及 一 些 停 用 词 还 有 很 多 ， 
所 以 下 一 步 就 是 将 词 序列 进行 过 滤 ,去 掉 停 用 词 和 标点 符号 。 


2. 去 停 去 标点 


在 这 里 利用 NLTK 自 带 的 英文 停 用 词 表 , 进 行 去 停 ,去 标点 ,具体 的 代码 如 表 3. 3 
所 示 。 


表 3.3 预 处 理 之 去 停 .去 标点 





from nltk. corpus import stopwords 
english stopwords = stopwords. words( 'english') 
texts filterd stopwords = [ 
[word for word in text tokenized if not word in english stopwords] 
for text tokenized in texts tokenized 
去 停 和 | ] 
X english punctuations = [',', yy 
RB | HS", E] 
texts_filterd_punctuations = [ 
[word for word in text_filterd_stopwords if not word in english_punctuations] 
for text_filterd_stopwords in texts_filterd_stopwords 
] 
print texts_filterd_punctuations 
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续 表 


[[u'would', u'constitution', u'handle', u'crisis', u'raised', u'end', u'white', 
u'house'], 

[u'think', u'name', u'proxima', u'b'], 

[u'summer', u'student - oriented', u'startup', u'grant', u'programs', u'like', u'light', 
u'speed', u'venture', u'partners', u'summer', u'fellowship', u'program'], 

输出 [u'apple', u'music', u'december', u'2015'], 

结果 [u'two', u'stars', u'orbit', u'fairly', u'closely', u'other\u2014perhaps', u'sun\ 
u2013mercury', u'distance\u2014how', u'extend', u'combined', u'habitable', u'zone'], 
[u'people', u'think', u'makes', u'search', u'illegal'], 


[u'figure', u'good', u'doctor'] 
] 





更 进一步 ,需要 对 这 些 英文 单词 词 干 化 ,NLTK 提供 了 多 种 相关 工具 接口 可 供 选 
择 , 这 里 使 用 LancasterStemmer。 


3. 词 干 化 


对 文本 词 序列 进行 词 干 化 ,具体 操作 如 表 3.4 所 示 。 
表 3.4 对 文本 词 序列 进行 词 干 化 


from nltk. stem. lancaster import LancasterStemmer 
st = LancasterStemmer() 

. texts stemmed - [ 

词 干 化 代码 ; ， 
[ st. stem( word) for word in text filterd punctuations] 

for text filterd punctuations in texts filterd punctuations 


] 


[[u'would', u'constitut', u'handl', u'cris', u'rais', u'end', u'whit', u'hous'], 





[u'think', u'nan', u'proxim', u'b'], 

[u'sum', u'student- oriented', u'startup', u'grant', u'program', u'lik', u'light', 
u'spee', u'vent', u'partn', u'sum', u'fellow', u'program'], 

[u'appl', u'mus', u'decemb', u'2015'], 

输出 结果 [u'two', u'star', u'orbit', u'fair', u'clos', u'other\u2014perhaps', u'sun\ 
u2013mercury', u'distance\u2014how', u'extend', u'combin', u'habit', u'zon'], 
[u'peopl', u'think', u'mak', u'search', u'illeg'], 


[u'fig', u'good', u'doct'] 
] 





至 此 ,文本 已 经 经 过 了 处 理 , 可 以 作为 输入 使 用 Gensim 工具 包 了 。 
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3.4.3 使 用 Gensim 


在 上 述 预 处 理 的 基础 上 ,我 们 可 以 使 用 Gensim 工具 库 , 做 快速 的 文本 相似 度 的 
实验 了 。 首 先 ,启动 Python 后 做 一 些 准备 工作 ,如 下 所 示 ,将 需要 使 用 的 包 引 入 ,并进 
行 日 志 设置 。 

from gensim import corpora, models, similarities 

import logging 

logging.basicConfig(format- '% (asctime)s : % (levelname)s : % (message)s', level = 

logging. INFO) 

做 好 以 上 工作 之 后 ,使 用 Gensim 分 为 4 步 : 第 一 ,抽取 词 袋 ,将 文本 中 的 token 
映射 为 id; 第 二 ,将 单词 序列 表示 的 文本 转换 成 id 表示 的 文本 向 量 ; 第 三 ,用 文本 向 
量 来 训练 LDA 模型 ,并 使 用 LDA 模型 将 文本 向 量 再 次 向 量化 ; 第 四 ,计算 文本 相 
似 度 。 


1. 抽取 词 袋 


dictionary = corpora.Dictionary(texts_stemmed) 
print dictionary. token2id 


输出 是 一 个 字典 ,字典 的 key 是 单词 词 干 , 而 value 是 对 应 的 id。 例 如 : 


{u'childr': 497, u'h.264': 491, u'sci': 307, u'rom': 92, u'funct': 53, u'consun': 373, 

u'protest': 411, u'/': 501, u'anti- sugar': 369, «) 

在 这 两 行 代码 中 ,corpora 是 Gensim 中 的 一 个 基本 概念 ,是 文档 集 的 表现 形式 ， 
也 是 后 续 处 理 的 基础 。 其 基于 词 袋 模型 ,只 考虑 词 频 而 不 考虑 词语 间 的 位 置 关 系 ,所 
以 文档 集中 ,所 有 相同 的 单词 均 有 相同 的 id 对 应 ,而 不 会 因为 位 置 不 一 样 而 有 差别 。 

男 外 ,词典 (Dictionary) 是 所 有 文档 中 所 有 单词 的 集合 ,而 且 记 录 各 个 词语 的 频次 
等 信息 。 


2. 文本 向 量化 


corpus = [dictionary. doc2bow(text_stemmed) for text_stemmed in texts_stemmed] 
print corpus 

这 两 行 代码 可 以 将 文本 转化 为 用 id 和 词 频 表 示 的 文档 向 量 。 
代码 的 输出 如 下 所 示 。 

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)], 

[(8, 1), (9, 1), (10, 1), (11, 1)], 


[(12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 2), (18, 1), (19, 1), (20, 1), (21, 
2), (22, 1)], 


© 2 








第 3 章 “LDA 主 题 模型 一 


[(23; 1). (24, 1); (25, t); (26, TI, 

12%, Th (28, 31),, (29, TD). (30, D. E32, Ds. (325.195 038. DY, 136, Dy X35, 1), G8, 
A), (37, 1), (38, 17], 

[(10, 1). (39, 1), (40, 1), (41, 1), (42, 1)] 


[(182, 1), (505, 1), (506, 1)] 
] 


以 上 输出 和 表 3. 3 中 的 输出 结果 是 一 一 对 应 的 关系 ,其 中 第 一 行 (0, 1) 这 个 元 素 
即 指 id 为 0 的 单词 “would"” 在 第 一 个 文本 中 出 现 了 一 次 ,第 三 行 的 (17, 2) 这 个 元 素 
即 指 id 为 17 的 单词 “program” 在 第 三 个 文本 中 出 现 了 两 次 ,以 此 类 推 。 


3. 训练 LDA 模型 


在 训练 LDA 模型 前 ,因为 直接 用 词 频 来 表示 的 文本 向 量 在 进行 模型 训练 时 并 不 
理想 ,于 是 先 使 用 词 频 表示 的 文本 向 量 , 训 练 一 个 TFIDF 模型 ,并 用 该 模型 将 文本 表 
示 成 使 用 tfidf 值 表示 的 文本 向 量 。 


tfidf = models.TfidfModel(corpus) 
corpus tfidf = tfidf[corpus] 
for text in corpus tfidf: 

print text 


运行 上 述 代码 ,日 志 输 出 为 : 


2017- 05 - 16 12:20:24,431 : INFO : collecting document frequencies 

2017 - 05 - 16 12:20:24,433 : INFO : PROGRESS: processing document #0 

2017 - 05 - 16 12:20:24, 434 : INFO : calculating IDF weights for 100 documents and 506 
features (666 matrix non- zeros) 


代码 输出 如 下 所 示 。 


(0, 0.366537750708288), (1, 0.31136832195508723), (2, 0.31136832195508723), (3, 
0. 366537750708288 ), (4, 0.366537750708288 ), (5, 0.366537750708288 ), ( 6, 
0. 366537750708288), (7, 0. 366537750708288) ] 

(8, 0.5708836739015911), (9, 0.5708836739015911), (10, 0.3990305640223574), (11, 
0. 43469330650614224) ] 

(12, 0. 25540681625186845), (13, 0.25540681625186845), (14, 0.25540681625186845), 
(15, 0, 25540681625186845), (16, 0. 25540681625186845), (17, 0. 4339285197148856), 
(18, 0. 2169642598574428), (19, 0. 25540681625186845), (20, 0. 25540681625186845), 
(21, 0. 5108136325037369), (22, 0. 2169642598574428) ] 

(23, 0. 4885778881312231), (24, 0. 5751459847840765), (25, 0. 4379387978304993), (26, 
0. 4885778881312231)] 

(27, 0.307106574386233), (28, 0.307106574386233), (29, 0.307106574386233), (30, 
0. 307106574386233), (31, 0.307106574386233), (32, 0.2338430373343246 ), (33, 
0. 307106574386233), (34, 0.26088242900829905), (35, 0.307106574386233), (36, 
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0. 26088242900829905), (37, 0. 2338430373343246), (38, 0. 307106574386233) ] 
[(10, 0. 3740686821519087), (39, 0. 5351712946641429), (40, 0. 4075004948640919), (41, 
0. 3481369535881885), (42, 0. 5351712946641429)] 


[(182, 0. 47407074858575643), (505, 0. 6225981550467927), (506, 0. 6225981550467927) ] 


有 了 tfidf 值 表示 的 文本 向 量 , 就 可 以 训练 一 个 LDA 模型 了 ,为 了 方便 演示 设置 
topic 数目 为 2: 


lda = models. LdaModel(corpus_tfidf, id2word = dictionary, num_topics = 2) 
corpus_lda = lda[corpus_tfidf] 


运行 上 述 代码 ,日 志 输出 为 : 


2017 - 05 - 16 13:04:47,644 : INFO : using symmetric alpha at 0.5 

2017 — 05 - 16 13:04:47,644 : INFO : using symmetric eta at 0.00197238658777 

2017 - 05 - 16 13:04:47,644 : INFO : using serial LDA version on this node 

2017- 05 - 16 13:04:47,661 : INFO : running online LDA training, 2 topics, 1 passes over 
the supplied corpus of 100 documents, updating model once every 100 documents, evaluating 
perplexity every 100 documents, iterating 50x with a convergence threshold of 0.001000 
2017-05 - 16 13:04:47,663 : WARNING : too few updates, training might not converge; 
consider increasing the number of passes or iterations to improve accuracy 

2017-05-16 13:04:47,844 : INFO: — 8.047 per - word bound, 264.5 perplexity estimate 
based on a held- out corpus of 100 documents with 247 words 

2017- 05- 16 13:04:47,844 : INFO : PROGRESS: pass 0, at document # 100/100 

2017- 05-16 13:04:47,996 : INFO : topic #0 (0.500): 0.005 * "best" + 0.004* "us" + 
0. 004 * "work" + 0.004 * "googl" + 0.004 *"'s" + 0.004 * "buy" + 0.003 * "quest" + 
0.003 * "2016" + 0.003 * "import" + 0.003 * "pap" 

2017-05-16 13:04:47,996 : INFO : topic #1 (0.500): 0. 004 * "work" + 0.004 * "appl" 
+ 0.004 *"bet" + 0.004 *"nam" + 0.004 * "mak" + 0.004 * "good" + 0.004 * "peopl" + 
0.003 * "tim" + 0.003 *"think" + 0.003 * "android" 

2017- 05 - 16 13:04:47,996 : INFO : topic diff = 0. 376601, rho = 1. 000000 


从 日 志 输 出 来 看 ,LDA 模型 中 两 个 主题 单词 都 有 其 概率 意义 ,其 和 为 1, 值 越 大 
权重 越 大 ,不 过 从 日 志 输 出 来 看 ,这 100 条 文本 训练 出 来 的 LDA 模型 分 类 太平 均 了 ， 
效果 不 好 ,这 里 只 做 演示 ,在 实际 使 用 中 ,LDA 模型 适合 大 量 的 长 文本 ,而 不 是 短 
文本 。 

迭代 输出 corpus_lda, 使 用 LDA 模型 表示 的 文本 向 量 : 


for text in corpus_lda[0:6]: 
print text 


输出 结果 如 下 所 示 。 


[(0, 0. 3406041781954956), (1, 0. 65939582180450429) ] 
[(0, 0. 22597417423786995), (1, 0. 77402582576213019)] 
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[(0, 0. 84805562246149802), (1, 0. 15194437753850201)] 
[(0, 0. 21450428771479105), (1, 0. 78549571228520898)] 
[(0, 0.65051568395918502), (1, 0. 34948431604081509) ] 
[(0, 0. 19286844705426348), (1, 0. 80713155294573657) ] 


[(0, 0. 55708521789362775), (1, 0. 44291478210637231)] 


LDA 模型 将 tfidf 表示 的 文本 向 量 映射 到 二 维 的 topic 空间 ,表示 成 某 个 文本 在 
某 个 可 能 的 topic 主题 上 的 概率 是 多 少 。 


4. 计算 相似 度 

当 给 定 一 个 查询 ,需要 在 语料库 中 找到 最 相关 的 语 料 ,首先 需要 建立 索引 : 
lda index = similarities. MatrixSimilarity(corpus_lda) 

运行 后 日 志 输 出 为 : 


WARNING : scanning corpus to determine the number of features (consider setting 'num_ 
features' explicitly) 
2017 - 05 - 16 13:28:21,069 : INFO : creating matrix with 100 documents and 2 features 


在 这 里 使 用 文本 集 第 一 条 文本 作为 查询 来 计算 余弦 相似 度 ,并 排序 : 


sims = lda index[corpus lda[0]] 
Sort sims = sorted(enumerate(sims), key = lambda item: - item[1]) 


print sort sims 


输出 结果 为 : 


[(0, 0.99999976), (20, 0.99986219), (56, 0.99973673), (21, 0.99968654), (45, 
0.99932444), (51, 0.99894542), (48, 0.99845517), (26, 0.99415189), (90, 
0.99091542), (86, 0.98954976 ), (87, 0.98942244), (74, 0.98887068), (52, 
0. 98595977), (36, 0.98595858), (25, 0. 98471349), (15, 0. 98420799), (41, 0. 9839648), 
(27, 0.98321402), (1, 0.98124623), (94, 0.97978067), (34, 0.97926497), (40, 
0. 97920299), (3, 0. 97771263), (79, 0.97622615), (17, 0.97522271), (29, 0.9746123), 
(71, 0.97387516), (83, 0.97187316), (57, 0.97102541), (73, 0.97078645), (65, 
0. 97062421), (5, 0. 97049183), (70, 0. 96968943), (47, 0. 96918607), (80, 0. 96916544), 
(53, 0.96864861), (7, 0.96804917), (72, 0.96666151), (81, 0.96563566), (19, 
0. 96528029), (75, 0. 96308815), (91, 0. 96268767), (84, 0. 9618504), (62, 0. 96131843), 
(68, 0.96084613), (55, 0.95879519), (76, 0.95838296), (98, 0.95630652), (93, 
0. 95171386), (16, 0.9512918), (39, 0.95076859), (31, 0.94574434), (99, 0.91274667), 
(4, 0.82241428), (11, 0.81467485), (59, 0.79645193), (89, 0.79556501), (23, 
0.79261315), (37, 0.78737354), (30, 0.74438167), (18, 0.73747993), (49, 
0.73280084), (38, 0.70336533), (33, 0.69548559), (96, 0.68735188), (54, 
0. 68344373), (10, 0. 67878008), (13, 0. 67847431), (82, 0. 67684174), (8, 0. 67355728), 
(63, 0.67065203), (43, 0.67014968), (97, 0.66950113), (58, 0.66930395), (60, 
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0. 66842979), (50, 0. 66504508), (22, 0. 66479057), (69, 0. 6632219), (88, 0. 65770352), 
(42, 0.65090638), (12, 0.65038872), (77, 0.65007883), (14, 0.64986783), (95, 
0.64695704), (35, 0.64584285), (46, 0.64518237), (78, 0.64240724), (85, 
0.64102268), (92, 0.6379953), (67, 0.63318151), (6, 0.6324774), (9, 0.63196814), 
(44, 0.6315304), (32, 0.62179583), (24, 0.61987162), (64, 0.61975366), (61, 
0. 61862588), (2, 0. 60951793), (28, 0. 60730588), (66, 0. 60294652)] 


其 中 最 相似 的 当然 是 第 一 条 文本 自身 ,余弦 相似 度 高 达 99. 999994. 
习题 


1. 小 试 牛刀 : 自己 配置 环境 ,并 准备 一 定量 的 文本 ,使 用 LDA 模型 计算 其 相 
似 度 。 

2. 在 第 4 部 分 的 计算 相似 度 部 分 , 先 用 tfidf 将 文本 向 量化 后 ,在 使 用 LDA 模型 
将 其 映射 到 topic 空间 ,讨论 将 文本 tfidf 向 量化 的 好 处 和 坏处 ,尝试 不 进行 这 一 步 的 
tfidf 向 量化 ,直接 使 用 LDA 模型 计算 相似 度 。 

3. 实验 并 讨论 使 用 LDA 模型 时 ,topics 的 数量 选择 对 最 终结 果 的 影响 。 

4. 实验 并 讨论 使 用 LDA 模型 计算 文本 相似 度 时 ,文本 长 度 对 最 终结 果 的 影响 。 


4.1 决策 树 简 介 


4.1.1 一 个 小 例子 


决策 树 是 一 种 有 监督 的 分 类 方法 , 它 是 用 已 有 的 数据 构造 出 一 棵 树 ,用 这 棵 树 ,对 
新 的 数据 进行 预测 。 举 个 例子 ,假设 我 们 已 经 有 了 一 组 人 对 某 盘 菜 试 吃 结果 的 数据 ， 
每 一 数据 包括 4 个 属性 : 试 吃 者 的 年 龄 (只 能 从 10 岁 以 下 10 一 50 岁 、50 岁 以 上 里 面 
进行 选择 ) , 试 吃 者 对 该 盘 菜 食物 颜色 的 评价 (颜色 不 错 、 颜 色 一 般 、 颜 色 不 好 ) . 试 吃 者 
对 于 该 盘 菜 气味 的 评价 ( 闻 起 来 很 香 、 闻 起 来 一 般 、 闻 起 来 不 好 ) 、 试 吃 者 对 该 盘 菜 味道 
的 评价 (味道 不 错 \ 味 道 一 般 、 味 道 不 好 )。 我 们 希望 利用 收集 到 的 数据 ,构造 出 这 样 一 
种 方法 ,通过 这 种 方法 , 当 已 知 试 吃 者 的 年 龄 及 试 吃 者 对 该 盘 菜 颜色 .气味 的 评价 后 预 
测 出 试 吃 者 对 该 盘 菜 味 道 的 评价 。 当 需要 完成 类 似 于 这 样 的 一 个 预测 任务 时 ,决策 树 
就 可 以 成 为 一 个 选择 。 再 回 到 刚才 那个 例子 ,假设 用 收集 到 的 数据 构造 出 如 图 4. 1 所 
示 这 样 一 棵 树 。 

为 了 方便 读者 直观 的 理解 ,省 略 了 这 棵 树 的 右 半 部 分 。 现 在 ,我 们 已 经 构造 出 了 
这 棵 树 ,就 可 以 对 新 得 到 的 数据 进行 预测 了 。 有 一 个 7 岁 的 小 朋友 试 吃 了 这 盘 菜 ,并 
告诉 我 们 这 盘 菜 颜 色 一 般 但 闻 起 来 很 香 , 你 能 根据 这 棵 树 预 测 出 他 对 这 盘 菜 味道 的 评 
价 吗 ? 是 的 ,通过 上 面 的 这 棵 树 ,我 们 用 原来 数据 的 经 验 得 到 的 结果 是 这 个 小 朋友 会 
觉得 这 盘 菜 味 道 不 错 。 

现在 ,相信 读者 已 经 了 解 了 决策 树 是 一 棵 什么 样 的 树 , 它 可 以 用 来 完成 什么 样 的 
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图 4.1 决策 树 示意 


任务 , 它 大 概 的 执行 步骤 是 什么 ,那么 接 下 来 就 让 我 们 来 看 看 这 棵 树 是 怎么 构造 出 
来 的 。 


41.2 几 个 重要 的 术语 及 决策 树 构造 思路 


1. 几 个 重要 的 术语 


在 进入 正题 之 前 ,我 们 先 了 解 几 个 术语 ,如 果 读 者 已 经 学 过 数据 结构 ,那么 可 以 跳 
过 术语 这 一 部 分 ,直接 看 构造 思路 。 

树 是 一 种 很 重要 的 数据 结构 ,在 刚才 得 到 的 那 棵 树 中 ,根据 节点 位 置 的 不 同 , 一 般 
有 如 下 几 个 名 词 。 

COD 根 节 点 : 一 棵 树 只 有 一 个 根 节点 ,在 之 前 给 出 的 例子 的 树 中 ,最 上 方 的 节点 
(形状 为 圆 角 方 框 ) 就 是 这 棵 树 的 根 节点 ,我们 在 用 这 棵 树 进行 预测 时 ,这 个 根 节点 也 
是 整个 预测 的 入 口 。 

(2) 子 节点 : 我 们 看 到 最 下 面 的 形状 为 矩形 框 节点 就 是 这 棵 树 的 叶子 节点 ,在 决 
策 树 中 ,叶子 节点 的 内 容 就 是 我 们 对 于 输入 数据 的 预测 结果 。 在 这 里 要 注意 ,一 棵 树 
可 以 有 很 多 叶子 节点 ,但 是 根 节 点 只 能 有 一 个 。 

(3) 内 部 节点 : 除了 根 节点 和 叶子 外 ,其 他 的 节点 就 是 内 部 节点 ,内 部 节点 的 内 
容 对 应 某 一 属性 (在 例子 中 即 为 气味 或 者 颜色 ) ,这 个 属性 的 不 同 的 值 可 能 会 通 向 不 同 
的 内 部 节点 或 者 叶子 节点 。 

(4) 子 树 : 对 于 某 一 非 根 节 点 ,该 节点 及 从 该 节点 下 面 可 以 到 达 的 其 他 节点 ,可 
以 看 作 原 决策 树 的 一 部 分 , 称 为 原 决策 树 的 子 树 。 
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2. 构造 思路 


通过 上 面 的 例子 可 以 看 出 来 ,在 构造 这 棵 树 时 ,在 每 个 非 叶 子 节点 都 需要 去 选择 
某 一 属性 ,这 个 属性 不 同 的 取 值 对 应 这 个 节点 的 不 同 子 树 ,也 就 是 说 ,构造 一 棵 好 的 决 
策 树 很 重要 的 一 点 就 在 于 如 何 去 选 择 这 个 节点 下 的 属性 。 在 4. 2 节 中 我 们 将 用 一 种 
数学 方法 进行 度量 ,从 而 进行 划分 选择 。 

我 们 可 以 很 容易 地 发 现 , 子 节点 的 属性 一 定 是 与 父 节 点 及 父 节点 以 上 的 属性 不 同 
的 , 当 子 节点 没有 属性 可 以 选择 时 ,这 个 子 节点 一 定 是 叶子 节点 。 这 就 为 如 何 编程 实 
现 决策 树 提供 了 一 个 思路 ,即使 用 递归 的 方法 构造 ,递归 的 边界 条 件 也 十 分 清晰 , 即 为 
一 个 可 以 选择 的 属性 集 , 子 树 的 构造 仅 依赖 于 可 以 选择 的 属性 集 , 当 该 属性 集 为 空 时 ， 
函数 返回 ,否则 在 该 节点 选择 某 一 属性 ,并 递归 构造 该 节点 的 子 树 。 写 成 伪 代 码 的 格 
式 如 下 。 


输入 : 训练 集 D = ((x1, y1), (x2, y2) ~ (xn, yn) ) 
属性 集 A = (attrl,attr2--attrm) 
ConstructTree(D, A) 
{ 
新 建 一 个 节点 tree node; 
If D 中 所 有 的 数据 都 属于 同一 个 类 别 了 
{ 
该 节点 为 叶子 节点 ,tree_node 的 值 为 类 别 T; 
return; 
Jelse ifA-9 | D 中 样本 在 A 上 取 值 相同 { 
该 节点 为 叶子 节点 ,tree_node 的 值 为 D 中 样本 数 最 多 的 类 ; 
return; 
}else{ 
从 A 中 选择 最 优 划 分 属性 attr * ; 
Forattr* 的 每 一 个 值 attr x* v( 
为 tree_node 创建 一 个 新 的 分 支 
Dv = D 中 在 attr* 上 取 值 为 attr* v 的 样本 子 集 
If Dv 为 空 
1 
该 节点 为 叶子 节点 ,tree_node 的 值 为 D 中 样本 数 最 多 的 类 
}else{ 


递归 调用 ConstructTree(Dv, AN {attr * _v}), 并 将 返回 的 节点 作为 该 节点 
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4.2 离散 型 决策 树 的 构造 


从 上 面 的 伪 代 码 可 以 看 出 ,构造 出 一 棵 决策 树 很 重要 的 一 点 就 在 于 如 何 选择 最 优 
划分 属性 ,在 某 一 节点 选择 某 一 属性 的 目的 在 于 选择 该 属性 后 可 以 让 决策 树 分 支 节点 
所 包含 的 样本 尽 可 能 属于 同一 类 别 , 即 节点 的 “纯度 ” 越 来 越 高 。 

那么 ,为 了 选 出 最 合适 的 属性 ,需要 对 “纯度 ”进行 量化 ,下 面 介绍 三 种 量化 纯度 的 
方法 。 假 设 一 个 样本 集合 一 共有 m 条 数据 ,其 可 以 被 分 为 n 类 ,上 第 类 样本 所 占 的 
比例 为 po BL REAR 


CD Gini 不 纯度 : 
Gini = 1 一 Si PG» 
(2) fili. D 
Entropy —— Xbox log; PG) 
(3) 错误 率 : B 


Error = 1 — max (PG) | i € [1.n]} 

上 面 三 个 公式 都 可 以 用 来 量化 纯度 ,并 且 计 算得 到 的 值 越 大 ,表示 越 “ 不 纯 ”, 越 小 
表示 越 “ 纯 ”。 在 实际 应 用 中 ,以 上 三 个 公式 选择 一 种 即 可 ,实践 证 明 三 个 公式 对 最 后 
分 类 结果 的 影响 并 不 大 。 

在 某 一 节点 进行 属性 选择 时 ,假设 该 属性 attr 存在 个 可 能 的 取 值 {attrl ,attr2， 
attr3,… ,attrn) ,车 最 后 该 节点 选择 attr 为 划分 属性 , 则 该 节点 会 产生 n 个 分 支 , 且 第 
dt ee 中 所 有 在 attr 上 取 值 为 attrt 的 样本 ,该 样本 集 记 为 D,。 可 以 根据 上 

三 个 公式 计算 出 纯度 已 ,但 是 不 同 的 样本 集 D, 中 样本 的 数目 不 同 , 所 以 赋予 分 支 节 


pajisi :| ,然后 就 可 以 计算 出 用 attr 属性 对 该 节点 进行 划分 时 ,得 到 的 “信息 
增益 ”为 : 


[D] 








Gain = E (parent) P Nol x ECu;) 


jal 


当 计 算得 到 的 信息 增益 值 越 大 ,就 说 明 在 该 节点 使 用 属性 attr 来 划分 所 获得 的 “ 纯 
度 " 越 大 ,这 也 是 ID3 决策 树 算法 使 用 的 策略 ,即使 用 信息 增益 来 作为 属性 选择 的 标准 。 


4.3 连续 性 数值 的 处 理 


在 前 面 的 例子 中 ,讲述 了 对 于 离散 型 的 数据 ,该 如 何 构造 一 棵 决策 树 ,但 是 对 于 连 
续 型 的 数据 呢 ? 比如 试 吃 者 输入 的 年 龄 并 不 是 这 样 一 个 区 间 的 选择 ,而 是 一 组 连续 的 
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整数 值 。 以 C4. 5 算法 为 代表 的 一 系列 算法 采用 取 值 区 间 二 分 离散 的 方法 来 处 理 , 这 
种 处 理 方法 是 : 首先 找 出 训练 样本 在 该 连续 属性 上 的 最 大 和 最 小 值 ,在 最 大 和 最 小 值 
限定 的 取 值 区 间 上 设置 多 个 等 分 断 点 ,分 别 计算 以 这 些 断 点 为 分 裂 点 的 信息 增益 值 ， 
并 比较 ,具有 最 大 信息 增益 的 断 点 即 为 最 佳 分 裂 点 , 自 该 分 裂 点 把 整个 取 值 区 间 划 分 
为 两 部 分 ,相应 的 依据 记录 在 该 属性 上 的 取 值 ,也 将 记录 集 划 分 为 两 部 分 。 


4.4 ”决策 树 剪 枝 


到 这 里 我 们 已 经 构造 出 来 了 一 棵 决策 树 ,但 是 还 需要 对 它 进 行 优化 ,让 这 棵 决策 
树 可 以 更 准确 地 预测 数据 。 决 策 树 构造 过 程 中 经 常会 遇 到 一 个 问题 , 即 过 拟 合 问题 。 
过 拟 合 问题 就 是 构造 出 来 的 决策 树 虽然 在 训练 集 上 的 数据 的 准确 度 特别 高 ,但 是 在 测 
试 集 上 的 数据 的 准确 度 确 很 低 。 为 了 解决 这 个 问题 ,我们 使 用 剪 枝 的 方法 来 降低 过 拟 
合 的 风险 。 

一 般 来 说 , 剪 枝 的 策略 有 两 种 ,一 种 是 “ 预 剪 枝 ”, 另 一 种 是 “后 剪 枝 "。 预 剪 枝 是 在 
决策 树 的 生成 过 程 中 进行 的 ; 后 剪 枝 是 在 决策 树 生成 之 后 进行 的 。 


1， 预 剪 枝 


在 前 面 讨论 的 算法 中 , 当 在 某 一 节点 选择 使 用 某 一 属性 作为 划分 属性 时 ,会 由 于 
本 次 划分 而 产生 几 个 分 支 , 预 剪 枝 就 是 对 划分 前 后 两 棵 树 的 泛 化 性 能 进行 评估 ,根据 
评估 结果 来 决定 该 节点 是 否 进行 划分 。 

首先 ,引入 一 个 名 词 一 一 验证 集 精度 。 一 般 我 们 将 数据 分 为 两 部 分 ,一 部 分 是 训 
练 集 , 另 一 部 分 是 验证 集 。 训 练 集 用 来 进行 决策 树 的 构造 , 另 一 部 分 没有 在 构造 决策 
树 用 到 的 数据 称 为 验证 集 。 验 证 集 精度 即 为 用 验证 集 去 检验 这 棵 树 , 预测 结果 的 正 
确 率 。 

那么 , 预 剪 枝 的 方法 就 是 在 每 一 次 选择 划分 属性 时 ,对 划分 前 后 两 棵 树 的 验证 集 
精度 进行 计算 ,划分 前 精度 值 高 ,就 选择 在 该 节点 不 进行 属性 划分 ,直接 将 该 节点 标 为 
叶子 节点 ,并 将 该 叶子 节点 的 值 设置 为 样本 集 D 中 样本 数 最 多 的 类 。 

可 以 看 到 , 预 剪 枝 使 得 很 多 节点 没有 展开 , 既 降 低 了 过 拟 合 的 风险 ,又 减少 了 训练 
决策 树 时 花费 的 时 间 ,但 是 存在 这 样 一 种 可 能 性 ,虽然 这 个 节点 的 展开 会 暂时 降低 泛 
化 性 能 ,但 是 这 个 节点 后 面 其 他 节点 的 展开 又 提高 了 泛 化 性 能 ,这 又 提高 了 预 剪 枝 带 
来 的 欠 拟 合 的 风险 。 

经 实践 证 明 , 这 种 策略 无 法 得 到 较 好 的 结果 。 


2. Ji HE 
在 后 剪 枝 方法 中 ,我 们 先 构造 出 来 了 一 棵 完整 的 决策 树 ,并 对 这 棵 树 的 非 叶 子 节 
点 , 即 进行 了 属性 划分 的 节点 进行 逆序 层次 遍历 ,从 构造 出 来 的 这 棵 决策 树 深 度 最 深 
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的 非 叶子 节点 开始 逆序 进行 层次 遍历 ,对 每 一 节点 计算 出 当前 这 棵 树 的 验证 集 精度 和 
将 当前 节点 变 为 叶子 节点 的 验证 集 精度 , 取 验 证 集 精度 最 高 的 为 最 后 选择 。 

后 剪 枝 的 方法 比 起 预 剪 枝 减 少 了 欠 拟 合 的 风险 ,实践 证 明 这 也 是 效果 较 好 的 一 种 
剪 枝 策略 ,但 是 这 种 后 剪 枝 的 方法 其 训练 的 开销 比 起 未 剪 枝 决 策 树 和 预 剪 枝 决 策 树 都 
要 大 很 多 。 


习题 


1. 使 用 一 种 你 熟悉 的 语言 ,例如 C++/Java 来 编程 实现 一 棵 决策 树 的 决策 过 程 。 

2. WAWR 4. 1 所 示 数 据 集 ,需要 通过 给 定 的 数据 集 实现 一 棵 决策 树 来 对 今天 
的 天 气 是 否 适合 打 网 球 做 出 预测 (将 最 后 4 行 数据 作为 测试 集 ,其 他 所 有 数据 作为 训 
练 集 ) 。 












































表 4.1 天 气 数据 
RA 温度 湿度 是 否 有 风 是 否 适 合 打 网 球 
晴 热 高 B 否 
晴 热 高 是 否 
阴 热 高 "5 是 
T i 高 否 是 
雨 WR m 否 是 
"i 凉爽 中 是 否 
阴 凉爽 中 是 是 
晴 温 高 否 F 
"n WR 中 否 是 
Li] i 中 B 是 
"n i 中 是 是 
阴 温 高 是 是 
阴 热 中 否 是 
雨 温 高 是 5 














3. 对 问题 2 中 构造 出 来 的 决策 树 进 行 后 剪 枝 / 预 剪 枝 处 理 , 比较 这 两 种 剪 枝 策略 
对 结果 的 影响 ,并 比较 剪 枝 策略 与 不 剪 枝 的 区 别 。 


支持 向 量 机 


支持 向 量 机 (Support Vector Machine, SVM) ,也 称 为 支持 向 量 网 络 (Support 
Vector Network) ,由 Bernhard E. Boser Isabelle M. Guyon 和 Vladimir N. Vapnik 
在 1992 年 通过 改进 Vapnik 在 1963 年 提出 的 线性 分 类 器 而 形成 。 它 适用 于 二 元 分 类 
问题 。 


5.1 分 离 超 平面 与 最 大 间隔 


在 第 7 章 中 ,将 介绍 采用 拟 合 超 平面 以 进行 二 元 分 类 的 单 层 感知 机 。 若 两 类 分 类 
问题 的 训练 数据 线性 可 分 ,那么 在 两 类 训练 数据 点 之 间 理 论 上 可 以 作 无 穷 多 个 不 同 的 
超 平面 。 然 而 这 些 超 平面 并 不 都 是 具有 相同 的 泛 化 能 力 , 即 能 够 正确 区 分 训练 样 例 的 
超 平面 ,对 测试 样 例 的 区 分 能 力 不 同 ; 这 是 由 于 某 些 超 平面 离 一 些 训练 样 例 点 非常 
近 , 而 某 些 超 平面 与 所 有 的 样 例 点 都 保持 了 “合理 的 "距离 。 

我 们 知道 , 单 层 感知 机 是 通过 梯度 下 降 法 来 训练 的 ,其 拟 合 的 超 平面 有 随机 性 ,并 
不 总 是 能 得 到 泛 化 能 力 比较 好 的 超 平面 (如 图 5. 1 和 图 5.2 所 示 )。 

为 了 最 优化 所 得 到 分 离 超 平面 的 泛 化 能 力 , 直 觉 上 应 当 使 得 这 个 超 平面 具有 这 样 
的 特点 : 对 于 那些 离 超 平面 最 近 的 训练 样 例 点 ,我 们 使 超 平面 距离 它们 尽 可 能 远 。 这 
就 是 支持 向 量 机 背后 的 直觉 。 

在 数学 上 可 以 证 明 , 这 样 的 超 平面 是 唯一 的 (如 图 5. 3 所 示 ); 这 种 基于 最 大 间隔 
的 学 习 分 类 器 称 为 支持 向 量 机 。 如 果 我 们 采取 这 样 的 方法 来 求 分 离 超 平面 ,显然 ,这 
样 的 分 类 器 的 分 类 行为 由 那些 离 超 平面 最 近 的 训练 样 例 点 所 决定 ; 这 样 的 训练 样 例 
点 就 是 支持 向 量 。 
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图 5.1 泛 化 能 力 较 差 的 分 离 超 平面 图 5.2 泛 化 能 力 较 好 的 分 离 超 平面 





图 5.3 最 大 间隔 分 离 超 平面 


本 章 接 下 来 将 从 最 简单 的 情况 开始 讨论 ,介绍 训练 数据 线性 可 分 的 情况 ; 然后 拓 
展 到 训练 数据 近似 线性 可 分 的 情况 ; 最 后 讨论 训练 数据 线性 不 可 分 的 情况 。 


5.2 线性 支持 向 量 机 


5.2.1 硬 间隔 


在 最 简单 的 情况 下 ,训练 数据 完全 可 以 由 一 个 分 离 超 平面 分 开 : 正 例 全 部 处 于 超 
平面 的 一 侧 , 而 负 例 全 部 处 于 超 平面 另 一 侧 。 这 个 时 候 只 要 找到 这 样 一 个 分 离 超 平面 
五 , 它 距 离 那些 离 超 平面 最 近 的 点 尽 可 能 远 就 行 了 。 换 言 之 , 若 由 正 例 支 持 向 量 所 确 
定 的 平行 于 分 离 超 平面 的 超 平面 为 H, ,由 负 例 支持 向 量 所 确定 的 ,平行 于 分 离 超 平 
面 的 超 平面 为 H; ,那么 只 需要 使 得 Hi “GH, 之 间 的 距离 最 大 , 取 万 WSH H, 距离 
相同 的 平面 即 可 。 这 两 个 超 平面 之 间 的 距离 称 为 间隔 。 巾 于 训练 数据 完全 可 以 由 分 
离 超 平面 分 开 ,我 们 不 需要 容忍 任何 训练 数据 中 出 现 的 异常 点 ,因此 这 样 的 间隔 称 为 
硬 间隔 。 

形式 化 地 ,假设 有 训练 数据 : 

D-gq]ÀxXeyeuw. 

Hp. x 为 输入 向 量 ; Y" 为 类 别 标记 ,Y” = 01 RRE, Y” == 一 1 代表 

nE, 
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分 离 超 平面 为 : 
wertb=0 
4wextb>0 时 表示 预测 为 正 类 , 当 zw。z 十 6<0 时 代表 预测 为 负 类 。 
一 个 样 例 点 (z,y) 到 分 离 超 平面 H 的 欧 几 里 得 距离 为 : 
a= [w . Zz 十 6| 
E 


w 
其 中 ,| + | RAY 2- 范 数 。 观 察 到 ,训练 样 例 中 we cr tb 的 符号 与 y 的 符号 
是 一 致 的 ,而 y 只 能 等 于 1 或 一 1, 我 们 借 此 消去 绝对 值 符号 ,因此 上 式 可 表示 为 : 

ise nir 

Tel? Te 
由 于 Hi 由 离 OBA i Cr; «y ) 决 定 ,因此 其 距离 可 表示 为 : 

w b 
4 = minor ToT qur) 
HFH: 到 H RISERUBIH, 到 H HERH d; — d; ,因此 间隔 为 : 
m=2-+d, min2y (ers + IP: ) 
前 面 提 到 ,为 了 得 到 最 优 分 离 超 平面 ,我 们 要 让 间隔 最 大 ,因此 我 们 的 训练 目标 为 
找到 这 样 的 ww,b, 使 得 : 









































wb = arg max [ mindy, ( Tol + = Jl 
我 们 知道 ,如 果 成 比例 地 改变 wb 的 大 小 ,间隔 也 会 同比 例 放 大 或 缩小 ; 但 是 这 
种 情况 下 间隔 放大 并 没有 任何 意义 ,因为 分 类 器 的 泛 化 能 力 没有 得 到 任何 提升 。 对 于 
这 个 问题 ,习惯 上 ,我 们 对 支持 向 量 所 决定 的 超 平面 做 如 下 规定 : 
Hisw*xb—l 
H;:sw*rdb-——1 
这 样 就 消除 了 wb 的 绝对 大 小 对 间隔 所 造成 的 影响 。 因 此 当 训 练 目 标 中 的 


2» (Ex 二 人) 取得 最 小 值 时 ,总 是 有 (wz 十 6) 二 1。 训 练 目标 可 以 写成 


w = arg max Ta 
在 数学 上 可 以 证 明 , 以 上 优化 目标 等 价 于 : 
w|? 
2 


w = arg min 
w 


若 将 min 2y (seres ror ts REV i (w+ 二 二 9) 过 1, 则 寻找 具有 
最 大 问 隔 的 分 离 超 平面 的 问题 可 表示 为 如 下 的 最 优化 问题 ， 
min [elt s.t Viy; (w° x; +b)>1 
以 上 最 优化 问题 是 一 个 凸 二 次 规划 的 问题 ,可 以 将 其 作为 原始 问题 (Primal 
Problem) ,通过 拉 格 朗 日 乘 子 法 构造 其 对 偶 问题 (Dual Problem); 并 通过 求解 这 个 对 


"n (9 
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偶 问 题 得 到 原始 问题 的 最 优 解 。 
首先 对 原始 问题 的 每 个 不 等 式 约 束 引 入 拉 格 朗 日 乘 子 i0, 构 造 拉 格 朗 日 函数 : 
L(w.b3a)= let - p» aiyi (w * x; 十 0) 十 25 ai 
根据 拉 格 朗 日 对 偶 性 ,原始 问题 的 对 偶 问 题 是 最 大 最 小 问题 : 
max minL (wb;a) 


对 于 最 小 问题 的 求解 , 联 立 以 下 三 式 : 


E = Day, =0 
L(w,b ^ 
可 以 得 到 : 
minL (vw«b;a) — 4 >) D aayy txt wi 2 a; 
于 是 得 到 对 偶 问 题 ， 


max 33 Peay * Xi LIS is st Day, = Ova, 20 
这 是 一 个 二 次 规划 间 是 ， 我 们 总 能 为 二 次 规划 问题 找到 全 局 极 天 值 点 (2 syi) 
及 对 应 的 ei， JE w= 2] aic, 计算 得 到 m。 


这 样 的 训练 样本 点 Cei ,yi ) 称 为 支持 向 量 。 因 此 当 我 们 使 用 已 经 训练 好 的 模型 进 
行 测试 的 时 候 , 只 需要 支持 向 量 而 不 需要 显 式 地 计算 出 w。 例 如 ,测试 输入 向 量 为 
zW 

y=w*z+b= È ajy; (a; ez)to 


其 中 , (zj y) AGM it CNI a; 都 大 于 等 于 0。 

在 实际 算法 实现 上 ,二 次 规划 问题 已 经 有 许多 成 熟 的 算法 以 及 工具 来 求解 ,我们 
一 般 把 它 作为 一 个 黑箱 来 看 待 。 在 SVM 中 ,最 常用 的 求解 策略 是 序列 最 小 最 优化 
(Sequential Minimal Optimization, SMO) 算 法 ; 其 思想 是 进行 迭代 求解 ,在 每 一 次 迭 
代 中 选择 一 对 (ai,aj ) ,求解 仅 由 这 两 个 变量 构成 的 二 次 规划 问题 (这 是 非常 容易 求解 
AY) ,迭代 直至 收敛。 


5.2.2 软 间隔 
5.2. 1 节 介绍 了 训练 数据 线性 可 分 的 状况 。 然 而 现实 中 的 训练 数据 并 不 都 那么 
理想 ,更 多 的 情况 下 是 找 不 到 这 样 的 分 离 超 平面 把 训练 数据 中 的 正 例 和 负 例 完全 分 开 


的 ; 有 时 候 可 以 找到 一 个 分 离 超 平面 “勉强 ?地 分 开 正 例 和 负 例 ,但 是 为 了 使 得 正 例 和 
负 例 完全 分 开 ,间隔 变 得 非常 小 ,因此 这 样 的 分 离 超 平面 泛 化 能 力 很 差 。 
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为 了 解决 这 样 的 问题 ,对 于 近似 于 线性 可 分 的 训练 样 例 , 我 们 可 以 在 某 种 程度 上 
“容忍 "样本 点 落 在 5 Hs 之 间 ( 如 图 5.4 所 示 ), 但 是 又 要 采取 措施 “惩罚 "这些 偏 
离 ,使 得 “容忍 "的 程度 尽 可 能 地 低 。 














图 5.4 带 软 间隔 的 线性 支持 向 量 机 
形式 化 地 ,我 们 可 以 对 每 个 样本 点 引入 一 个 松弛 变量 (Slack Variable)& ,使 得 
yi(we a +b)>1—& 
同时 在 损失 函数 中 加 入 对 松弛 变量 的 惩罚 ,于 是 损失 函数 变 成 ， 
let cy & 
因此 最 优化 问题 就 成 了 : | 
min je 上 十 Ce， s.t. Viy(wez Fb)21—&, &20 
它 的 对 个 问题 是 ， — 
max >) D aayo us ty ine s.t. P =0, C>a 20 


类 似 地 ， 我 们 可 以 通过 与 5. 2. 1 节 中 求解 四 二 次 规划 问题 的 方法 来 求解 以 上 
问题 。 
在 软 间隔 的 情况 下 ,a; 宇 0 对 应 的 训练 样本 点 (zi ,yi ) 称 为 支持 向 量 ; 但 它们 间隔 


WRH, SH. 的 距离 不 再 固定 ,而 是 [ET。 


5.3 非 线性 支持 向 量 机 


有 些 时 候 ,训练 数据 连 近似 的 线性 划分 也 找 不 到 ,线性 超 平面 无 法 有 效 划 分 正 类 
与 负 类 ,而 是 需要 超 曲面 等 非 线 性 的 划分 。 然 而 , 非 线性 的 优化 问题 往往 难以 求解 。 
因此 通常 的 做 法 是 将 输入 向 量 从 输入 的 空间 投射 到 另 一 个 空间 (特征 空间 ) 中 (如 
图 5. 5 所 示 )。 在 这 个 特征 空间 中 ,投射 后 得 到 的 特征 向 量 线性 可 分 或 近似 线性 可 分 ， 
然后 通过 和 5. 2 节 中 相同 的 方法 进行 求解 。 

然而 这 样 做 也 带 来 了 一 个 新 问题 : 使 得 投射 后 的 特征 向 量 ( 近 似 ) 线 性 可 分 的 特 
征 空间 维度 往往 比 原 输入 空间 的 维度 高 很 多 ,其 至 具有 无 限 个 维度 。 
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输入 空间 特征 空间 


图 5.5 非 线性 变换 
(图 片 来 源 : http://www. cise. ufl. edu/class/cis4930splldtm/notes/intro_svm_new. pdf) 


5.3.1 BAK 


为 了 解决 新 特征 空间 维度 高 的 问题 ,引进 核 方法 (Kernel Method) ,使 得 我 们 在 计 
算 中 不 需要 直接 进行 非 线性 变换 $8(，) 的 计算 ,不 需要 真正 得 到 变换 后 的 特征 向 量 ,从 
而 避免 由 计算 高 维度 向 量 带 来 的 问题 。 

假设 我 们 已 经 得 到 了 特征 向 量 {zi no n) ,观察 5. 2.2 节 中 的 最 优化 问题 的 对 偶 
问题 ; 

max— >) > aay; eae at Sass &h day: -—0, (Iac 

我 们 发 现 特征 向 量 仅 以 向 量 内 积 的 形式 出 现 。 因 此 只 要 可 以 找到 一 个 函数 
K(a,b) ,可 以 直接 由 输入 向 量 a LO 计算 出 投射 后 特征 向 量 的 内 积 , 那 么 就 可 以 避免 
显 式 地 定义 和 计算 非 线性 变换 BC+) 

形式 化 地 ,我 们 定义 这 样 的 函数 为 核 函数 (Kernel Function) : 

K (ai +2; )= $(xi)* $C) 
例如 ,对 于 二 维 向 量 a = (a ,a )" ,我 们 定义 一 种 非 线性 变换 ， 
$(a)— (1, 42a; 2a; al ,al Baia) 
而 核 函数 的 计算 就 非常 简单 ， 
K(asb)= $(a)* $(b)— (1--aibi + ab; J? 
注意 , 核 函数 与 非 线 性 变换 $ 的 关系 并 非 一 一 对 应 。 
这 样 一 来 ,我 们 就 可 以 把 对 偶 问题 写成 


max— 12) avaiyiys * Klasa) + D) ais s.t. Play; = 0, Go 
t f i i 


5.3.2. 常用 的 核 函 数 
我 们 实际 上 不 需要 先 选择 非 线性 变换 %, 而 是 可 以 直接 定义 核 函 数 开 。 一 般 地 ， 
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核 函数 的 选 定 都 是 由 经 验 选 定 ,然后 通过 实验 验证 这 种 选择 的 有 效 性 。 

下 面 介绍 几 种 常用 的 核 函 数 。 

COD 多 项 式 核 函 数 : 

K(a.b)— (a* b+c)? 
其 中 ,c 和 4 是 参数 。 
(2) 径 向 基 核 函数 : 
K (a.b) = expC— y la—bl’) 
其 中 ,y 是 参数 。 
(3) S 型 函数 ， 
K (a,b)= tanh(ya + b+c) 

其 中 ,y 和 c 是 参数 。 

而 线性 支持 向 量 机 可 以 视 为 核 函数 是 线性 函数 K (a,b) 二 a*b 的 支持 向 量 机 。 
这 样 在 实现 的 时 候 就 可 以 统一 接口 而 只 更 改 核 函数 。 

在 实际 应 用 中 需要 使 用 SVM 的 时 候 往往 直接 使 用 已 有 的 软件 包 , 例如 
LIBSVM, SVM Light 等 。 使 用 的 时 候 只 需要 将 训练 数据 按照 指定 的 格式 写 到 文件 
中 , 即 可 通过 命令 行 或 其 他 程序 语言 接口 指定 参数 并 调用 。 其 中 ,LIBSVM 实现 了 
5.3. 2 节 中 介绍 的 所 有 三 种 核 函数 以 及 线性 核 函 数 ,并 可 以 指定 核 函 数 中 的 参数 ; 
SVM Light 则 速度 较 快 ,适用 于 较 大 数据 集 的 训练 。 


5.4 操作 实例 : 应 用 MATLAB 多 分 类 SVM, 
二 分 类 SVM ,决策 树 算法 进行 分 类 


5.4.1 数据 集 选择 


名 称 : Heart Disease Data Set, 

描述 : 这 个 数据 库 收集 了 某 个 地 区 的 人 关于 心脏 疾病 的 76 个 特征 ,用 于 描述 他 
们 心脏 疾病 的 风险 (0 一 5) ,0 表示 正常 ,其 余 为 不 同 程度 的 风险 。 其 中 ,76 个 特征 里 面 
最 常用 的 为 14 个 ,有 数值 信息 和 类 别 信息 ,具体 描述 如 下 。 

属性 列表 : 

1. 53 (age) 年 龄 

2. 54 (sex) 性别 

3. 59 (cp) 胸痛 类 型 

Value 1; typical angina 典型 心绞痛 

Value 2: atypical angina 非典 型 心绞痛 

Value 3; non-anginal pain 非 心绞痛 

Value 4; asymptomatic 无 症状 
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4. 510 (trestbps) 

resting blood pressure (in mm Hg on admission to the hospital) $$ E ifi Fk CA Dé 
时 以 mmHg 表示 ) 

5. 512 (chol) 

血清 胆固醇 (mg / dl) 

6. 516 (fbs) 

(fasting blood sugar > 120 mg/dl) (1 = true; 0 = false) CZ Jl i> 120mg/ dD 
(=H; 0 一 假 ) 

7. 519 (restecg) resting electrocardiographic results 静 息 心电图 结果 

Value 0: normal 

Value 1: having ST-T wave abnormality (T wave inversions and/or ST 
elevation or depression of > 0.05mV) 具 有 ST-T 波 异 常 (T 波 倒置 和 /或 ST 升 高 或 
iM iti] > 0. 05mV) 

Value 2; showing probable or definite left ventricular hypertrophy by Estes’ 
criteria 根据 Estes 标准 显示 可 能 或 确定 的 左 心室 肥大 

8. 532 (thalach) 

maximum heart rate achieved 最 大 心率 

9. 538 (exang) 

exercise induced angina (1 = yes; 0 = no) 运 动 诱发 心绞痛 (1 =f; 0 =F) 

10. 540 (oldpeak) 

ST depression induced by exercise relative to rest 运动 相对 于 休息 诱导 的 ST 
抑制 

11. 541 (slope) the slope of the peak exercise ST segment 峰值 运动 ST 段 的 

Value 1: upsloping 上 升 

Value 2: flat 平坦 

Value 3: downsloping 下 降 

12. 544 (ca) 

number of major vessels (0-3) colored by flourosopy 通过 荧光 透视 法 着 色 的 主 
要 血管 数 (0 一 3) 

13. 551 (thal) 

3 — normal; 6 — fixed defect; 7 — reversable defect 

14. 558 (num) (the predicted attribute) 

diagnosis of heart disease (angiographic disease status) 心 脏 病 诊断 (血管 造影 疾 
病状 态 ) 

属性 14, 心 脏 病 诊 断 结果 , 即 为 样本 的 类 别 标签 ,其 余 属性 为 样本 的 相关 特征 。 

选用 两 个 数据 比较 完整 地 区 的 数据 ,样本 数 共 381 条 (如 图 5.6 所 示 )。 
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样本 数 


一 MSs 
m 

^ NI 56 

上 国 19 


类 别 


标签 








图 5.6 各 类 别 样本 数 分 布 图 


模型 选择 : 

该 数据 集 共 有 5 个 类 别 标签 ,为 多 分 类 任务 ,所 以 我 们 首选 的 分 类 模型 为 决策 树 。 
决策 树 不 仅 可 以 直接 适用 于 多 分 类 任务 ,而 且 可 以 将 分 类 过 程 直观 地 显示 出 来 ,从 而 
我 们 可 以 知道 所 用 的 分 类 属性 的 重要 程度 ,并 且 决 策 树 不 仅 能 处 理 类 别 型 属性 ,也 能 
处 理 连续 型 属性 。 

另 一 方面 ,由 于 样本 数量 比较 少 ,对 于 小 样本 数据 的 分 析 ,SVM 的 和 鲁 棒 性 比较 强 。 
但 SVM 是 二 分 类 器 ,所 以 在 本 次 作业 中 ,我 们 用 了 两 种 方法 将 SVM 应 用 于 多 分 类 任务 。 


5.4.2 数据 预 处 理 


1. 数据 清洗 


通过 对 数据 的 简单 观察 ,我 们 发 现 数据 中 有 少量 样本 的 属性 值 有 空缺 ,所 以 先 对 
数据 进行 了 清洗 ,删除 了 有 空缺 属性 值 的 样本 。 


2. 特征 选择 


对 于 特征 的 选择 , 原 数据 集 共 有 76 个 属性 ,然而 网 站 上 已 经 说 明 并 推荐 了 其 中 
14 个 属性 作为 分 类 相关 的 特征 ,所 以 在 本 次 作业 中 ,只 使 用 了 13 个 属性 (另外 1 个 为 
类 别 标签 ) 作 为 分 类 特征 。 


3. 数据 顺序 随机 化 


由 于 我 们 使 用 了 两 个 数据 集 , 这 两 个 数据 集 分 别 来 自 两 个 地 区 ,为 消除 地 区 差异 ， 
我 们 将 两 个 数据 集 拼接 之 后 并 进行 了 打 乱 处 理 。 


4. 数据 标准 化 
由 于 原始 数据 中 属性 值 的 取 值 范围 不 一 ,尤其 对 于 数值 性 属性 ,如 果 该 属性 的 属 
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性 值 较 其 他 属性 大 ,那么 在 分 类 器 中 (尤其 SVM 中 ) 可 能 会 给 这 个 属性 更 高 的 权重 ， 
这 样 就 错误 地 区 别 了 属性 的 重要 程度 。 数 据 标准 差 把 所 有 属性 值 映射 到 一 1 一 1 ,消除 
了 由 于 属性 值 取 值 范围 带 来 的 影响 ,平等 对 待 所 有 属性 。 


5. 类 别 不 平衡 处 理 


数据 中 ,类 别 标签 为 0 的 样本 个 数 最 多 , 占 总 样本 数 的 62%。 类 别 不 平衡 会 造成 
分 类 结果 偏向 于 样本 个 数 多 的 类 别 ,虽然 训练 得 到 的 分 类 器 精度 高 ,但 泛 化 能 力 往往 
很 差 。 


5.4.3 模型 表现 


接 下 来 ,我 们 在 MATLAB 上 用 决策 树 与 SVM, 解 决心 脏 病 诊断 分 类 任务 。 
1. 决策 树 
直接 使 用 决策 树 模型 进行 多 分 类 任务 ,分 类 过 程 如 图 5.7 Bron o 

















图 5.7 决策 树 分 类 过 程 图 


由 图 5.7 可 以 看 出 ,属性 11 和 属性 3 是 最 有 区 分 力 的 两 个 属性 值 , 即 峰值 运动 
ST 段 的 斜率 和 胸痛 类 型 对 心脏 病 的 诊断 很 有 帮助 。 


2. SVM 


我 们 实现 了 以 下 两 种 基于 SVM 的 多 分 类 。 

(1) 基于 ECOC 编码 的 SVM 多 分 类 器 。 

ECOC, 纠 错 输 出 码 , 是 一 种 常见 的 多 对 多 (MvM) 的 拆 分 策略 ,将 多 分 类 任务 转 
化 为 二 分 类 任务 。 
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(2) 基于 有 序 类 别 的 SVM 多 分 类 器 。 

我 们 考虑 到 ,类 别 标签 是 对 心脏 病 的 诊断 结果 ,0 表示 正常 ,1 一 4 分 别 表 示 不 同 程 
度 的 病变 ,它们 之 间 存 在 严重 顺序 关系 ,所 以 我 们 对 于 类 别 的 划分 标准 如 下 。 

分 类 器 1: 0 vs. [1,2,3,4] ,如果 分 类 结果 为 0, 则 分 类 标签 设 为 0; 如 果 分 类 结 
果 为 1, 则 进入 分 类 器 2 进行 分 类 。 

分 类 器 2: 1 vs. [2,3,4], 如 果 分 类 结果 为 0, 则 分 类 标签 设 为 1; 如 果 分 类 结果 
为 1, 则 进入 分 类 器 3 进行 分 类 。 

分 类 器 3: 2 vs. [3,4], 如 果 分 类 结果 为 0, 则 分 类 标签 设 为 2; 如 果 分 类 结果 为 
1, 则 进入 分 类 器 4 进行 分 类 。 

分 类 器 4: 3 vs. 4, 如 果 分 类 结果 为 0, 则 分 类 标签 设 为 3; 如 果 分 类 结果 为 1, 则 
分 类 结果 为 4。 

1) 分 类 准确 率 

对 于 以 上 两 种 模型 ,三 个 分 类 算法 ,分 别 计算 了 自助 法 、 留 一 法 和 5 Dr 5 次 交叉 验 
证 的 分 类 准确 率 Accuracy ,每 个 类 别 的 查 准 率 P 和 查 全 率 R 如 表 5. 1 所 示 。 


表 5.1 三 种 算法 在 三 种 验证 方法 中 的 准确 率 




















验证 方法 算法 自助 法 留 一 法 5 折 5 次 交叉 验证 平均 准确 率 
决策 树 0. 8346 0.5748 0.5276 
基于 ECOC 编码 的 SVM 多 分 类 器 | 0.7192 0. 6299 0.5538 
基于 有 序 类 别 的 SVM 多 分 类 器 0.7236 0.6115 0. 6184 


留 一 法 和 5 折 5 次 交叉 验证 中 每 个 类 别 的 查 准 率 P 和 查 全 率 分 布 R 如 图 5.8 一 
图 5.11 所 示 。 





留 一 法 各 类 别 查 准 率 P 

0.9 

0.8 

0.7 一 一 基于 ECOC 编 码 
Pl 0.6 的 SVM 多 分 类 器 
0.5 rs 
S04 一 一 基于 有 序 类 别 
8o; 的 SVM 多 分 类 器 

02 一 一 决策 权 

0.1 

0 
0 1 2 3 4 
类 别 标签 








5.8 三 种 算法 在 留 一 法 中 各 个 类 别 的 查 准 率 


2) 宏 查 准 率 与 宏 查 全 率 
三 种 算法 的 宏 查 准 率 和 宏 查 全 率 如 表 5. 2 所 示 。 
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留 一 法 各 类 别 查 全 率 R 
1 
08 —— 基于 ECOC 编 码 
= 0.6 的 SVM 多 分 类 器 
一 一 基于 有 序 类 别 
$04 的 SVM 多 分 类 器 
02 一 一 决策 树 
0 
0 1 2 3 4 
类 别 标 签 
图 5.9 三 种 算法 在 留 一 法 中 各 个 类 别 的 查 全 率 
5 折 5 次 交叉 验证 各 类 别 查 准 率 P 
0.9 
RE 一 一 基于 ECOC 编 码 
& 06 的 SVM 多 分 类 器 
X 05 一 一 基于 有 序 类 别 
So 的 SVM 多 分 类 器 
03 一 一 决策 树 
02 
0.1 
0 
0 2 4 
类 别 标签 
图 5.10 三 种 算法 在 5 折 5 次 交叉 验证 中 各 个 类 别 的 查 准 率 
5 折 5 次 交叉 验证 各 类 别 查 全 率 R 
1 
0.9 
08 一 一 基于 ECOC 编 码 
=% 0.7 基 
*- 0.6 的 SVM 多 分 类 器 
M 05 一 一 基于 有 序 类 别 
à 5d 的 SVM 多 分 类 器 
02 一 一 决策 树 
0.1 
0 
0 1 2 3 4 
类 别 标签 








图 5.11 三 种 算法 在 5 折 5 次 交叉 验证 中 各 个 类 别 的 查 全 率 
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表 5.2 三 种 算法 的 宏 查 准 率 和 宏 查 全 率 

5 折 5 次 交叉 验 | 5 折 5 次 交叉 
证 宏 查 准 率 验证 宏 查 全 率 
决策 树 0.3143 0. 3057 0. 2607 0. 2572 

X T ECOC 编码 的 
SVM 多 分 类 器 


基于 有 序 类 别 的 SVM 
多 分 类 器 


93 法 留 一 法 宏 查 准 率 | 留 一 法 宏 查 全 率 








0.3172 0.3114 0. 2506 0. 2487 





0. 2871 0. 3058 0. 3063 0. 3391 














从 表 5. 1 可 以 看 出 ,在 自助 法 中 ,三 种 算法 的 准确 率 都 比较 高 ,而 在 留 一 法 和 5 DT 
5 次 交叉 验证 中 ,三 种 算法 的 准确 率 相 比 于 自助 法 都 大 幅 下 降 ,说 明 我 们 所 使 用 的 样 
子 集合 太 小 ,导致 算法 欠 拟 合 。 决 策 树 在 自助 法 中 准确 率 最 高 ,在 一 定 程度 上 说 明 决 
策 树 表现 良好 。 后 两 种 SVM 算法 在 留 一 法 和 交叉 验证 中 准确 率 优 于 决策 树 , 说 明 
SVM 具有 更 好 的 鲁 棒 性 。 综 合 三 种 验证 方法 ,基于 有 序 类 别 的 SVM 多 分 类 器 表现 
最 优 。 

从 图 5.8 一 图 5. 11 中 可 看 出 ,无 论 是 留 一 法 还 是 交叉 验证 ,三 种 算法 对 于 类 别 0 
的 查 准 率 和 查 全 率 都 很 高 ,而 对 其 他 类 别 表现 较 差 ,这 应 该 是 类 别 不 平衡 对 分 类 结果 
造成 的 影响 。 从 查 准 率 和 查 全 率 来 看 ,三 种 算法 表现 相当 。 

从 表 5. 2 可 以 看 出 ,在 留 一 法 中 ,基于 ECOC 编码 的 SVM 多 分 类 器 表现 最 好 。 
在 5 折 5 次 交叉 验证 中 ,基于 有 序 类 别 的 SVM 多 分 类 器 表现 最 好 。 


5.4.4 经 验 总 结 


数据 预 处 理 中 ,训练 数据 可 能 存在 残缺 或 者 异常 ,对 于 这 些 数据 要 舍弃 或 者 特殊 
处 理 。 

特征 选择 : 选择 正确 有 用 的 特征 对 模型 的 训练 有 非常 重要 的 影响 ,相反 ,无 用 特 
征 会 有 负面 效果 。 特 征 间 的 差异 可 以 通过 标准 化 进行 处 理 ,同时 ,对 于 类 别 特征 ,可 以 
将 其 转换 之 后 再 投入 训练 。 

模型 选择 : 不 同 的 模型 对 于 不 同 的 训练 数据 有 不 同 训练 效果 ,所 以 不 能 盲目 跟风 
使 用 某 种 模型 ,要 有 针对 性 地 使 用 。 

验证 方法 : 因为 数据 分 布 不 均 ,我 们 的 验证 方式 也 不 尽 相同 。 交 叉 验 证 是 比较 常 
见 的 方法 ,一 方面 可 以 避免 数据 分 布 不 均 , 另 一 方面 可 以 减少 计算 量 。 留 一 法 相 比 而 
言 准确 率 会 更 高 ,但 是 计算 开销 比较 大 。 

类 别 不 平衡 会 对 分 类 结果 造成 严重 影响 ,应 该 在 数据 预 处 理 中 进行 处 理 ,本 次 作 
业 未 对 类 别 不 平衡 问题 进行 详细 处 理 。 一 般 来 说 ,处 理 方法 是 再 缩放 ,具体 来 说 ,有 以 
下 三 种 方法 。 

(1) RR: 去 除 一 些 样本 多 的 类 别 中 的 样本 。 
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(2) 过 采样 : 添加 样本 少 的 类 别 的 样本 ,代表 性 算法 SMOTE, 进 行 插值 产生 额外 
样本 。 

(3) BIB EE I. 在 预测 时 ,依据 样本 比例 。 

数据 集 太 小 ,容易 造成 欠 拟 合 , 从 分 析 的 结果 来 看 ,在 验证 中 自助 法 优 于 留 一 法 和 
交叉 验证 ,在 一 定 程度 上 说 明 我 们 的 分 类 算法 具有 从 拟 合 的 问题 。 

附 代码 1: 决策 树 


* leave one out cross validation 
ctreeloclabel = zeros(length(alllabel), 1); 
fori = 1 : length(alllabel) 
testdata = alldata(i, :); % split the data 
testlabel = alllabel(i); 
traindata = [alldata(1 : i - 1, :); alldata(i + 1 : end, :)]; 
trainlabel = [alllabel(1: i - 1); alllabel(i + 1 : end)]; 


tc = fitctree(traindata, trainlabel); % train the model 
% view(tc, 'mode', 'graph'); 
ctreeloclabel(i) = predict(tc, testdata); * predict 
end 


ctreelocaccuray = sum(ctreeloclabel == alllabel) / length(alllabel); 


5 k- fold cross validation 
K= 5; 


ctreelabel = []; 
fori=1:K 


tmp = length(alllabel) / K; 

testdata = alldata( (i - 1) * tmp + 1: i * tmp, :); 

testlabel = alllabel( (i - 1) * tmp + 1: i * tmp, :); 

traindata - [alldata(1 : (i - 1) * tmp, :); alldata(i * tmp * 1 : length 
(alllabel), :) ]; 

trainlabel = [alllabel(1 : (i - 1) * tmp, :); alllabel(i * tmp + 1 : length 
(alllabel), :) ]; 

clear tmp; 


tc = fitctree(traindata, trainlabel); 
ctreelabel - [ctreelabel; predict(tc, testdata)]; 
end 
ctreeaccuracy = sum(ctreelabel == alllabel(1:380)) / length(alllabel); 
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附 代 码 2: 利 用 MATLAB 多 分 类 SVM 


* leave one out cross validation 
ecocloclabel = zeros(length(alllabel), 1); 
for i = 1: length(alllabel) 
testdata = alldata(i, :); 
testlabel = alllabel(i); 
traindata = [alldata(1 : i - 1, :); alldata(i + 1 : end, :)]; 
trainlabel = [alllabel(1: i - 1); alllabel(i + 1 : end)]; 


ecoc = fitcecoc(traindata, trainlabel); 
% view(tc, 'mode', 'graph'); 
ecocloclabel(i) = predict(ecoc, testdata); 


end 
ecoclocaccuray = sum(ecocloclabel -- alllabel) / length(alllabel); 


% k- fold cross validation 
K = 5; 
ecoctp = zeros(K, N); 
ecocP = zeros(K, N); 
ecoclabel = []; 
fori=1:K 
tmp = length(alllabel) / K; 
testdata = alldata( (i - 1) * tmp + 1: i * tmp, :); 
testlabel = alllabel( (i - 1) * tmp + 1: i * tmp, :); 
traindata [alldata(1 : (i - 1) * tmp, :); alldata(i * tmp + 1 : length 
(alllabel), :) ]; 
trainlabel = [alllabel(1 : (i - 1) * tmp, :); alllabel(i * tmp + 1 : length 
(alllabel), :) ]; 


clear tmp; 


ecoc = fitcecoc(traindata, trainlabel); 
ecoclabel = [ecoclabel; predict(ecoc, testdata) ]; 


end 


ecocaccuracy = sum(ecoclabel == alllabel(1:380)) / length(alllabel) ; 


附 代码 3: 利 用 MATLAB 二 分 类 SVM 函数 自行 构建 多 分 类 方法 (包括 计算 准确 
率 、 查 准 率 、 召 回 率 ) 
% leave one out cross validation 


svmloclabel = zeros(length(alllabel), 1); 


svmloccorrect = zeros(1, N); 
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fori = 1: length(alllabel) 
testdata - alldata(i, :); 
testlabel - alllabel(i); 
traindata = [alldata(1 : i - 1, :); alldata(i + 1: end, :)]; 
trainlabel = [alllabel(1: i - 1, :); alllabel(i + 1 : end, :)]; 


tmpfinallabel = N; 
for svmindex = 1: N-1 


tmptrainlabel = trainlabel(trainlabel >= svmindex) >= svmindex + 1; 
tmptraindata = traindata(trainlabel >= svmindex, :); 

SVMModel = fitcsvm(tmptraindata, tmptrainlabel) ; 

clear tmptraindata tmptrainlabel; 


tmpsvmlabel = predict(SVMModel, testdata) ; 
if tmpsvmlabel == 0 
tmpfinallabel = svmindex; 
break; 
end 
end 
clear svmcorrect tmpsvmlabel tmptestdata tmptestlabel tmptruelabel; 


svmloclabel(i) = tmpfinallabel; 
if tmpfinallabel == testlabel 
svmloccorrect(testlabel) = svmloccorrect(testlabel) + 1; 
end 
end 


svmlocaccuray = sum(svmloccorrect) / length(alllabel) ; 


% k- fold cross validation 
E35; 

svmaccuracy = zeros(K, 1); 
svmP 
svmR 


zeros(K, N); 


zeros(K, N); 


fori=1:K 
tmp = length(alllabel) / K; 


testdata = alldata( (i - 1) * tmp + 1: i * tmp, :); 
testlabel = alllabel( (i - 1) * tmp + 1: i * tmp, :); 


© 54 





第 5 章 HL 


traindata = [alldata(1 : (i - 1) * tmp, :); alldata(i * tmp + 1 : length 
(alllabel), :) ]; 

trainlabel = [alllabel(1 : (i - 1) * tmp, :); alllabel(i * tmp + 1 : length 
(alllabel), :) ]; 

clear tmp; 


svmcorrect - 0; 
for svmindex = 1: N- 1 


tmptrainlabel = trainlabel(trainlabel >= svmindex) >= svmindex + 1; 
tmptraindata = traindata(trainlabel >= svmindex, :); 

SVMModel = fitcsvm(tmptraindata, tmptrainlabel) ; 

clear tmptraindata tmptrainlabel; 


if svmindex == 1 
tmptestdata = testdata; 
tmptruelabel = testlabel; 


else 
tmptestdata = tmptestdata(tmpsvmlabel == 1, :); 
tmptruelabel = tmptruelabel(tmpsvmlabel == 1); 
end 
tmpsvmlabel = predict(SVMModel, tmptestdata) ; 
clear SVMModel; 


tmpTP = sum(~tmpsvmlabel & tmptruelabel == svmindex) ; 
svmP(i, svmindex) = tmpTP / sum(tmpsvmlabel == 0); 
svmR(i, svmindex) = tmpTP / sum (testlabel == svmindex); 
svmcorrect = svmcorrect + tmpTP; 
if svmindex == N - 1 
tmpTP = sum(tmpsvmlabel & tmptruelabel == svmindex + 1); 
svmP(i, svmindex + 1) = tmpTP / sum(tmpsvmlabel == 1); 
svmR(i, svmindex + 1) = tmpTP / sum (testlabel == svmindex + 1); 
svmcorrect = svmcorrect + tmpTP; 
end 
end 
svmaccuracy(i) = svmcorrect / length(testlabel) ; 
clear svmcorrect tmpsvmlabel tmptestdata tmptestlabel tmptruelabel; 


end 
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1. SVM 会 出 现 过 拟 合 吗 ? 为 什么 ? 

2. 实际 使 用 中 如 何 选 择 合适 的 核 函数 ? 

3. SVM 是 否 适合 大 规模 的 数据 ? 

4. SVM 和 Logistic 回归 分 别 在 什么 情况 下 使 用 ? 
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提升 方法 


6.1 随机 森林 


6.1.1 随机 森林 介绍 


我 们 在 前 面 讲 过 决策 树 这 种 有 监督 的 分 类 方法 , 它 确实 有 着 很 多 良好 的 特性 , 训 
练 时 间 复 杂 度 较 低 ,对 目标 数据 进行 预测 的 速度 比较 快 ,模型 容易 展示 (将 决策 树 做 成 
图 片 直观 地 展现 在 别人 面前 ) 。 但 是 ,决策 树 这 种 算法 最 后 生成 的 只 有 一 棵 树 ,尽管 人 
们 提出 了 剪 枝 的 优化 策略 ,但 还 是 不 够 ,依旧 会 存在 过 拟 合 的 风险 。 

模型 组 合 ( 比 如 有 Boosting. Bagging 等 ,会 在 后 面 详 细 再 讲 ) 与 决策 树 相 关 的 算 
法 比较 多 ,这 些 算法 最 终 的 结果 是 生成 N( 可 能 会 有 几 百 棵 以 上 ) 棵 树 , 这 样 可 以 大 大 
减少 单 决策 树 带 来 的 问题 ,有 点 儿 类 似 于 三 个 臭 皮 匠 等 于 一 个 诸葛 亮 的 做 法 ,虽然 这 
几 百 棵 决策 树 中 的 每 一 棵 都 很 简单 ,但 是 它们 组 合 起 来 确实 很 强大 。 

而 随机 森林 ,就 是 用 随机 的 方式 建立 一 个 森林 ,森林 里 面 有 很 多 的 决策 树 ,随机 森 
林 中 的 每 一 棵 决策 树 之 间 是 没有 关联 的 。 在 得 到 森林 之 后 , 当 有 一 个 新 的 输入 样本 进 
入 的 时 候 , 就 让 森林 中 的 每 一 棵 决策 树 分 别 进行 一 下 判断 ,看 看 这 个 样本 应 该 属于 哪 
一 类 (对 于 分 类 算法 ) ,然后 看 看 哪 一 类 被 选择 最 多 ,就 预测 这 个 样本 为 哪 一 类 。 


6.1.2 Bootstrap Aggregation 


在 开始 具体 讲解 随机 森林 之 前 , 先 来 看 一 些 基础 的 概念 。 


UE 





1. Bootstrap 


相信 读者 都 做 过 这 样 一 道 题 , 一 个 池塘 里 面 有 N 条 鱼 ,如 果 不 把 所 有 的 鱼 都 捞 出 
来 数 ,如 何 大 致 估算 这 个 池塘 里 有 多 少 条 鱼 ? 这 个 题目 最 普遍 的 答案 是 捞 出 来 m 条 
鱼 并 给 这 m 条 鱼 做 上 标记 ,然后 将 这 m 条 鱼 放 回 池塘 ,过 一 段 时 间 后 再 捞 m 条 , 数 一 
数 现在 这 m 条 里 有 多 少 条 被 标记 了 ,这样 就 可 以 大 致 推算 出 池塘 里 一 共有 多 少 条 鱼 。 
Bootstrap 就 是 这 样 一 种 思想 , 它 是 现代 统计 学 较为 流行 的 一 种 统计 方法 ,在 小 样本 时 
效果 很 好 ,还 可 以 通过 方差 的 估计 构造 置信 区 间 等 ,使 其 运用 范围 得 到 进一步 延伸 。 


2. 集成 学 习 
下 面 来 介绍 一 下 什么 是 集成 学 习 。 
如 图 6. 1 所 示 , 最 上 面 的 三 张 图 分 别 代表 的 是 三 个 有 一 定 差 异 的 分 类 器 ,为 了 得 


到 一 个 更 准确 的 分 类 器 ,需要 将 上 面 的 三 个 弱 分 类 器 组 合成 一 个 强 分 类 器 ,从 而 得 到 
更 合理 的 边界 ,减少 分 类 错误 ,实现 更 好 的 分 类 效果 ,这 就 是 集成 学 习 。 


Classifier 1 一 Decision boundary 1 Classifier 2 一 Decision boundary 2 Classifier 3 一 Decision boundary 3 
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图 6.1 集成 学 习 示意 
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3. Bagging 


Bagging 是 集成 学 习 领 域 的 一 种 基本 算法 。 

它 从 训练 集 进行 子 抽样 从 而 组 成 每 个 基 模 型 所 需要 的 子 训练 集 ,对 所 有 基 模 型 预 
测 的 结果 进行 综合 产生 最 终 的 预测 结果 。 下 面 用 图 6. 2 展示 一 下 Bagging 的 策略 
过 程 。 


Bagging 
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图 6.2 Bagging 策略 过 程 


Bagging 即 从 样本 集中 用 Bootstrap 采样 选 出 个 训练 样本 ( 放 回 ,因为 别 的 分 类 
器 抽 训 练 样本 的 时 候 也 要 用 ) ,在 所 有 属性 上 ,用 这 个 样本 训练 分 类 器 ,重复 以 上 两 
步 m 次 ,就 可 以 得 到 mm 个 分 类 器 ,最 后 将 数据 放 在 这 m 个 分 类 器 上 跑 , 得 到 结果 后 通 
过 投票 机 制 (多 数 服 从 少数 ) 看 到 底 属于 哪 一 类 。 

Bagging 算法 在 构造 每 一 个 样本 集 时 采用 的 是 随机 放 回 抽样 的 方法 ,这 相当 于 随 
机 地 改变 样本 实例 的 权重 而 获得 一 个 新 的 训练 集 , 然 后 在 这 个 样本 集 下 训练 出 来 一 个 
弱 分 类 器 。 但 我 们 在 训练 过 程 中 ,应 当 重 点 去 关注 前 面 那些 被 分 类 错误 的 样本 ,而 不 
是 对 所 有 的 样本 都 同一 看 待 ,那些 分 类 错误 的 样本 也 应 当 在 抽样 中 抽 到 的 概率 更 大 ， 
因此 ,基于 对 Bagging 算法 的 改进 ,出现 了 Boosting 算法 和 Adaboost 算法 。 


4. Boosting 算法 


Boosting 算法 是 由 Robert T. Schapire 提出 的 ,就 像 前 面 提 到 的 ,Boosting 算法 
更 关注 于 被 分 类 错误 的 样本 ,对 于 这 样 的 样本 加 强 学 习 , 这 就 好 比 背 单词 , 当 第 一 遍 背 
完 一 个 List 的 单词 ,第 二 遍 进行 复习 时 ,并 不 是 这 个 List 中 的 每 一 个 单词 都 会 花费 同 
样 的 时 间 再 去 决定 ,而 是 会 重点 关注 那些 第 一 遍 之 后 还 没有 记 住 的 单词 。Boosting $E 
法 在 实施 时 也 使 用 了 这 种 思想 ,首先 给 每 一 个 训练 样 例 赋 予 同 样 的 权 值 , 然 后 训练 构 
造 出 第 一 个 弱 分 类 器 ,在 这 个 弱 分 类 器 上 进行 测试 ,对 于 那些 分 类 错误 的 测试 样 例 提 
高 权重 ,然后 用 调整 过 权 值 的 训练 集 再 去 训练 第 二 个 弱 分 类 器 ,重复 执行 以 上 过 程 直 
到 最 后 得 到 一 个 足够 好 的 分 类 器 。 
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6.1.3 随机 森林 训练 过 程 


随机 森林 中 的 每 一 棵 分 类 树 为 决策 树 , 其 生成 遵循 自 顶 向 下 的 递归 分 裂 原则 , 即 
从 根 节点 开始 依次 对 训练 集 进行 划分 ,在 决策 树 中 , 根 节点 包含 全 部 训练 数据 ,按照 节 
点 纯度 最 小 原则 ,选择 该 节点 的 划分 属性 ,并 对 训练 数据 集 同 时 进行 划分 ,生成 子 节 
点 ,直到 满足 分 支 停止 规则 而 停止 生长 。 具 体 的 如 何 创造 一 棵 决策 树 的 算法 过 程 已 经 
在 前 面 提 到 过 ,在 此 不 再 展开 。 

具体 实现 过 程 如 下 。 

(1) 原始 训练 集 为 D, 应 用 Bootstrap 法 有 放 回 地 随机 抽取 个 新 的 自助 样本 集 ， 
并 由 此 构建 棵 决策 树 。 

(2) 每 棵 树 最 大 限度 地 生长 ,不 做 任何 修剪 。 

(3) 将 生成 的 多 棵 决策 树 组 成 随机 森林 ,用 随机 森林 分 类 器 对 新 的 数据 进行 判别 
与 分 类 ,森林 中 的 每 一 棵 树 都 对 新 的 数据 进行 预测 和 投票 ,最 终 得 票 最 多 的 分 类 项 即 
为 随机 森林 对 该 数据 的 预测 结果 。 


6.1.4 随机 森林 的 优点 与 缺点 


1. 优点 


(1) 随机 森林 对 于 高 维 数据 集 的 处 理 能 力 比 较 好 , 它 可 以 处 理 成 千 上 万 的 输入 变 
量 , 并 确定 最 重要 的 变量 ,因此 被 认为 是 一 个 不 错 的 降 维 方法 。 此 外 ,该 模型 能 够 输出 
变量 的 重要 性 程度 ,这 是 一 个 非常 便利 的 功能 。 

(2) 在 对 缺失 数据 进行 估计 时 ,随机 森林 是 一 个 十 分 有 效 的 方法 。 就 算 存在 大 量 
的 数据 缺失 ,随机 森林 也 能 较 好 地 保持 精确 性 。 

(3) 当 存 在 分 类 不 平衡 的 情况 时 ,随机 森林 能 够 提供 平衡 数据 集 误差 的 有 效 方 法 。 


2. 缺点 


随机 森林 给 人 的 感觉 像 是 一 个 黑 盒子 一 一 你 几乎 无 法 控制 模型 内 部 的 运行 ,只 能 
在 不 同 的 参数 和 随机 种 子 之 间 进 行 尝试 ,从 而 得 到 一 个 更 优 的 分 类 器 。 





6.2 Adaboost 


6.2.1 下 入 


我 们 在 前 面 提 到 了 Boosting 算法 ,但 是 这 个 算法 在 解决 实际 问题 时 有 一 个 重大 
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的 缺陷 , 即 它们 都 要 求 事先 知道 弱 分 类 器 算法 分 类 正确 率 的 下 限 ,但 这 在 实际 问题 中 
很 难 解决 ,所 以 后 来 Freund 和 Schapire 提出 了 Adaboost 算法 ,这 个 算法 可 以 非常 容 
易 地 应 用 到 实际 问题 的 解决 中 。 

如 图 6. 3 所 示 ,这 就 是 Adaboost 的 结构 ,最 后 的 分 类 器 Yw 是 由 数 个 弱 分 类 器 组 
合 而 成 的 ,相当 于 最 后 m 个 弱 分 类 器 来 投票 决定 分 类 ,而 且 每 个 弱 分 类 器 的 “话语 权 ” 


a 不 一 样 。 | 
/ 


V p 


vie) yx) Yu) 


Te Ro uas 


M 
numi Zanato) 
图 6.3  Adaboost 结构 


Adaboost 算法 主要 是 在 整个 训练 集 上 维护 一 个 分 布 权 值 向 量 ,用 赋予 权重 的 训 
练 集 产生 弱 分 类 器 ,然后 计算 这 个 弱 分 类 器 的 错误 率 , 用 这 个 错误 率 去 更 新 分 布 权 值 
向 量 , 对 错误 分 类 的 样本 分 配 更 大 的 权 值 ,正确 分 类 的 样本 赋予 更 小 的 权 值 ,每 次 
更 新 后 用 相同 的 弱 分 类 算法 产生 新 的 分 类 假设 ,这 些 分 类 假设 的 序列 构成 多 分 类 
器 。 最 终 对 这 些 多 分 类 器 用 加 权 的 方法 进行 联合 ,就 可 以 得 到 决策 结果 ,这 种 方法 
的 好 处 在 于 不 要 求 单个 分 类 器 有 较 高 的 识别 率 , 即 不 要 求 寻 找 识别 率 很 高 的 基 分 类 
算法 。 


6.2.2 Adaboost 实现 过 程 


那么 如 何 得 到 最 终 的 a 值 ? 下 面 来 六 述 这 个 算法 的 具体 过 程 。 
假设 现在 一 共有 M 个 弱 分 类 器 ,NN 个 训练 样 例 ,每 一 个 训练 样 例 X, 的 正确 分 类 
结果 为 4 ,yw (zx, ) 代 表 训 练 样 例 z, 在 yw 弱 分 类 器 下 的 预测 结果 。 


CD) 对 于 每 一 个 训练 样 例 ,首先 初始 化 它 的 权重 为 站, 即 um e 


(2) 对 于 每 一 个 弱 分 类 器 m, 从 第 一 个 开始 重复 执行 以 下 步 又 。 
(D 计算 误差 函数 
Em = >) Waal GG) F ty) 


这 个 公式 的 含义 即 为 ,对 于 当前 yw 这 个 弱 分 类 器 ,人 遍历 所 有 的 训练 样 例 , 若 在 yw 
下 的 预测 结果 与 真实 结果 不 一 致 ,该 分 类 器 的 总 误差 增加 , 刚 开始 时 每 一 个 样 例 的 误 
差 权 重 都 是 相同 的 ,但 随 着 算法 的 不 断 演进 ,误差 权重 也 会 随 之 改变 。 


a @ 





jns act 


© 计算 该 弱 分 类 器 的 话语 权 a: 


更 新 权重 : 


Wmi — H 
Wntli = pm i= 1,2, N 


Za 
(3) 现在 ,针对 每 一 个 弱 分 类 器 ,我 们 都 得 到 了 与 其 相对 应 的 话语 权 ,用 这 个 就 
可 以 更 加 合理 地 整合 弱 分 类 器 从 而 成 为 一 个 强 分 类 器 。 
Jo 一 sign 3e. 0] 


6.2.3  Adaboost 总 结 


Adaboost 算法 是 一 种 实现 简单 ,应 用 也 很 简单 的 算法 。Adaboost 算法 通过 组 合 
弱 分 类 器 而 得 到 强 分 类 器 ,同时 具有 分 类 错误 率 上 界 随 着 训练 增加 而 稳定 下 降 , 不 会 
过 拟 合 等 性 质 , 应 该 说 是 一 种 很 适合 于 在 各 种 分 类 场景 下 应 用 的 算法 。 


6.3 随机 森林 算法 应 用 举例 


人 脸 识别 技术 想必 读者 都 很 熟悉 ,使 用 随机 森林 算法 同样 可 以 用 于 人 脸 识别 ,下 
面 来 看 一 看 具体 的 实现 过 程 ,希望 读者 能 对 随机 森林 这 种 算法 有 更 深入 的 了 解 。 

人 脸 识 别 中 ,系统 的 输入 通常 是 人 脸 图 像 ,特征 维 数 通常 比较 高 ,而 研究 发 现在 低 
维 空间 中 解析 或 计算 可 行 的 方法 ,在 高 维 空间 中 不 一 定 能 够 获得 好 的 效果 ,所 以 在 使 
用 随机 森林 算法 前 很 重要 的 一 项 工作 就 是 对 数据 进行 降 维和 特征 提取 。 目 前 , 主 成 分 
分 析 线性 鉴别 分 析 、 非 负 因子 分 解 \ 局 部 线性 嵌入 、 等 距 映 射 等 技术 都 是 人 脸 识别 中 
维 数 约 简 的 基本 方法 。 但 降 维 并 不 是 我 们 所 关注 的 重点 ,不 论 使 用 了 哪 一 种 方法 , 假 
设 现 在 我 们 已 经 从 高 维 空间 中 提取 了 需要 的 特征 。 

特征 提取 完成 之 后 ,分 类 器 的 选择 成 为 建立 有 效 人 脸 识别 的 又 一 个 关键 步骤 , 常 
用 的 人 脸 识别 分 类 方法 有 : K- 临 近 规则 、 贝 叶 斯 分 类 器 、 人 工 神 经 网 络 、Adaboost 和 
支持 向 量 机 (SVM) 等 。 研 究 发 现 ,使 用 单一 的 分 类 器 在 大 多 数 情况 下 并 不 能 得 到 稳 
定 的 高 泛 化 的 分 类 能 力 , 而 基于 多 个 分 类 器 的 集成 学 习 表 现 出 较 强 的 鲁 棒 性 ,现在 , 随 
机 森林 这 种 具有 良好 的 分 类 性 能 和 集成 学 习 特点 的 分 类 器 就 可 以 成 为 一 个 很 好 的 选 
择 。 我 们 可 以 用 上 面 提取 得 到 的 特征 作为 每 棵 决策 树 的 候选 属性 ,每 次 从 中 抽取 p 
个 属性 作为 这 个 森林 中 每 一 棵 决策 树 节点 分 裂 的 候选 属性 来 建立 起 这 样 一 个 随机 森 
林 。 最 后 实验 也 证 明了 随机 森林 这 种 方法 在 人 脸 识 别 中 可 以 达到 几乎 和 SVM 相同 
高 的 识别 率 ,但 是 随机 森林 在 训练 过 程 中 花费 的 时 间 更 短 , 可 以 说 ,综合 考虑 识别 效率 
和 训练 时 间 ,在 人 脸 识别 方面 ,目前 主流 的 分 类 器 中 随机 森林 分 类 器 的 效率 更 高 。 


© e 





第 6 章 “提升 方法 一 


除了 人 脸 识 别 ,更 贴近 人 们 生活 的 还 有 很 多 例子 ,例如 一 般 银行 在 贷款 之 前 都 需 
要 对 客户 的 还 款 能 力 进行 评估 ,但 如 果 客 户 数据 量 比较 庞大 ,信贷 审核 人 员 的 压力 会 
非常 大 ,此 时 常常 会 希望 通过 计算 机 来 进行 辅助 决策 。 随 机 森林 算法 可 以 在 该 场景 下 
使 用 ,我 们 可 以 将 原 有 的 历史 数据 输入 到 随机 森林 算法 当中 进行 数据 训练 ,利用 训练 
后 得 到 的 模型 对 新 的 客户 数据 进行 分 类 ,这 样 便 可 以 过 滤 掉 大 量 的 无 还 款 能 力 的 客 
户 , 如 此 便 能 极 大 地 减少 信贷 审核 人 员 的 工作 量 。 


6.3.1 MATLAB 中 随机 森林 算法 


MATLAB 这 个 强大 的 工具 已 经 给 我 们 封装 好 了 随机 森林 算法 ,如 果 你 的 计算 机 
上 安装 了 MATLAB, 准 备 好 训练 和 测试 数据 ,调用 下 面 的 函数 ,就 可 以 自己 快速 地 训 
练 出 一 个 森林 用 来 预测 。 


Factor = TreeBagger(nTree, train data, train label); 
[Predict label,Scores] 7 predict(Factor, test data); 


6.3.2 操作 实例 1: 基于 集成 方法 的 IRIS 数据 集 分 类 


MATLAB 自 带 非常 便于 使 用 的 集成 方法 工具 箱 , 但 为 了 更 好 地 向 读者 说 明 
Adaboost 方法 的 步骤 ,我 们 也 手动 实现 了 mh 方法 的 Adaboost, 展 示 结 果 以 方便 读者 
了 解 。 


1. 数据 集 选择 


1) 名 称 : IRIS 数据 集 

IRIS 也 称 营 尾 花 卉 数据 集 , 是 一 类 多 重 变量 分 析 的 数据 集 。 数 据 集 包含 150 个 
数据 集 ,分 为 3 类 ,每 类 50 个 数据 ,每 个 数据 包含 4 个 属性 。 

2) 属性 

Sepal. Length EHK BE) ,单位 是 em; 

Sepal. Width 4£ 35 9g BE) ,单位 是 cm; 

Petal. Length (EMH BE) ,单位 是 cm; 

Petal. Width HERE SE BE) ,单位 是 cm, 

3) 类 别 

Iris Setosa( il S FÉ) 

Iris Versicolour 4 6 SÆ) 

Iris Virginica F JE AE. 35 Fe) 


2. 数据 预 处 理 
数据 标准 化 : 


上- 机器 学 习 基础 





由 于 原始 数据 中 属性 值 的 取 值 范围 不 一 ,尤其 对 于 数值 性 属性 ,如 果 该 属性 的 属 
性 值 较 其 他 属性 大 ,那么 在 分 类 器 中 (尤其 SVM 中 ) 可 能 会 给 这 个 属性 更 高 的 权重 ， 
这 样 就 错误 地 区 别 了 属性 的 重要 程度 。 数 据 标准 差 把 所 有 属性 值 映射 到 一 1 一 1 ,消除 
了 由 于 属性 值 取 值 范围 带 来 的 影响 ,平等 对 待 所 有 属性 。 

该 数据 集 的 属性 为 花 莹 长 度 和 宽度 ,花瓣 的 长 度 和 宽度 ,我 们 首先 对 这 4 个 属性 
的 属性 值 做 了 标准 化 。 

实验 发 现 ,标准 化 后 ,训练 的 效率 明显 提高 。 


3. 算法 介绍 


本 次 作业 中 ,我 们 实现 的 算法 是 使 用 Hamming Loss 的 多 分 类 Adaboost 算法 , 即 
Adaboost. MH, 

Adaboost. MH 算法 主要 思路 : 组 合 的 弱 分 类 器 仍 为 二 分 类 器 。 对 于 每 个 类 别 做 
二 分 类 , 即 如 果 一 个 样本 属于 该 类 别 则 为 1 ,如 果 不 属 于 则 为 一 1。 假 设 有 m 个 样本 e 
个 类 别 , 将 样本 与 类 别 组 合 ,这 样 对 每 个 类 别 (是 /不 是 ) 都 有 m 个 样本 ,然后 对 每 个 类 
别 训练 二 分 类 的 弱 分 类 器 ,最 后 根据 整体 的 分 类 准确 率 来 分 配 新 的 权重 。 

具体 过 程 如 下 所 示 。 


Given: (xı, Yı), ^, (Xa, Ya )uhere x, € X, Y;.C y 
Initialize D; (i, 1) =1/(mk) 
Fortz1,-,T: 


* Train weak learner using distribution D, 
* Get weak hypothesis A, XXX y>R 
* Choose a ER 
* Update: 
D, G.DexpC- aY: Ll]h, (a; D) 
Z, 

Where Z, is a normalization factor(chosen so that D+ will be a distribution). 

Output the final hypothesis; 


Da GL) 





T 
HG.D = sev Yat) 


t=1 


给 定 mm 个 样本 ,样本 x; 的 类 别 标签 集合 为 Yi( 可 以 是 multirlabel) 。 
首先 初始化 每 个 样本 每 个 类 别 的 权重 为 二 。 


在 第 上 轮 迁 代 中 ,对 每 个 类 别 , 在 立 个 样本 上 训练 弱 分 类 器 , 共 得 到 个 弱 分 类 
器 。 对 于 样本 ri ,关于 类 别 / 的 分 类 结果 为 : h, Gn D o 
另外 : 


+1; HEY 
YU] = 
=i LEY 
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可 得 : 如 果 分 类 正确 Y.[/].5, Gr; DA 1 ,否则 为 一 1。 
r= 2D. G, DY; Lh Gs D 
ri 表示 第 1 轮 分 类 结果 的 准确 性 ,如 果 全 部 分 类 正确 ,那么 7 二 1, 分 类 错误 的 样 
本 越 多 ,x, 越 小 。 
第 1 轮 弱 分 类 器 的 权重 : 





— dy (1) 
47 a LÁ 


之 后 进一步 更 新 样本 权重 : 
D; G, Dexp(— aYi[LLh Gi D) 
Z, 
Z, = 》 D.G, Dexp(— aY; U]h Gr; D) =— J1- r 
Z, 用 于 权重 的 归 一 化 。 
了 轮 之 后 ,对 于 每 个 类 别 都 有 工 个 弱 分 类 器 。 样 本 zx 关于 类 别 / 的 分 类 结果 为 : 


T 
Ha.) = sien Dard] 
1 


这 样 对 于 每 个 类 别 , 都 能 预测 样本 x 是 否 是 该 类 别 ,这样 既 能 做 到 多 分 类 ,又 能 
满足 multi-label, 
对 于 single-label 的 多 分 类 ,只 需 修改 初始 的 权重 如 下 。 
1 


Dia Gold 








om? l= 9; 
DG.D = , 
Zn-—i1y Lx yi 
即 初始 情况 下 ,对 于 正确 的 类 别 给 予 更 高 的 权重 。 


实现 : 

实现 中 需要 注意 的 是 ,虽然 看 起 来 每 个 类 别 单独 训练 弱 分 类 器 ,但 是 在 每 一 轮 更 
新 权重 时 是 综合 考虑 多 个 类 别 的 分 类 结果 的 ,并 且 同 一 轮 不 同类 别 的 若干 分 类 器 共享 
同一 个 w。 

7 表示 第 1 轮 分 类 结果 的 准确 性 ,如 果 全 部 分 类 正确 ,那么 x, 二 1。 但 在 实现 中 ， 
由 于 浮 点 数 精度 问题 ,会 出 现 ,二 1 的 情况 , 遇 到 这 种 情况 时 ,我 们 认为 已 经 没有 误 分 
类 的 样本 了 , 即 退 出 循环 。 


4. 实验 表现 


首先 我 们 随机 选取 了 20%% 的 数据 作为 测试 集 ,剩余 80% 数 据 用 作 训 练 。 
为 了 对 比 , 我 们 共 使 用 了 以 下 三 种 算法 。 

(1) AdaBoost. MH( 自 己 实现 ); 

(2) AdaBoost. M2(MATLAB); 

(3) Naive 决策 树 。 





UE 


1) AdaBoost. M2 

AdaBoost. M2 相 比 于 二 分 类 的 Adaboost 算法 ,只 是 在 权 值 分布 上 做 了 调整 。 
(1) 算法 流程 

(D 获得 一 组 样本 (X) 、 它 的 分 类 (Y) 和 一 个 分 类 器 (weaklearn); 

@ 对 于 某 个 样本 X; ,将 它 的 分 类 归 为 一 个 正确 分 类 Y; 和 其 他 不 正确 分 类 Y, 


O 样本 权 什 进行 如 下 分 布 : 首先 每 个 样本 分 到 二 的 权 值 , 然 后 每 个 不 正确 分 类 
Asi), 的 个 数 ,也 就 是 说 样本 权 值 是 分 到 了 每 个 不 正确 的 分 类 上 。 

(2) 进入 循环 

OD 求 每 个 样本 的 权 值 , 即 每 个 样本 所 有 不 正确 的 分 类 的 权 值 和 ,再 求 每 个 样本 错 
误 分 类 的 权 值 , 即 不 正确 分 类 的 权 值 除 以 该 样本 的 权 值 ,最 后 将 每 个 样本 的 权 值 归 
一 化 ; 

@ 将 样本 权 值 和 某 样本 的 不 正确 分 类 的 权 值 输入 到 weaklearn, 获 得 弱 分 类 器 的 
输出 为 各 个 分 类 的 可 能 值 ; 

O 计算 伪 错误 率 ; 

© 更 新 权 值 ; 

© 退出 循环 。 

2) 算法 结果 

CD 准确 率 见 表 6. 1 。 


表 6.1 算法 结果 
算法 AdaBoost. MH AdaBoost. M2 Naive 决策 树 





分 类 准确 率 0. 9677 0. 9677 0. 9355 


(2) 查 准 率 见 图 6. 4。 





各 类 别 查 准 率 对 比 


查 准 率 
9e 
RoR- 
( 

be 

3 

a 

全 

E 

S 

E 

2 





0.75 


—e— Naive 决 策 树 
一 呈 AdaBoost.M2 
一 呈 AdaBoosLMH 





3 
0.8571 0.9268 
0.875 1 
0.875 1 
类 别 标签 



































图 6.4 各 类 别 查 准 率 对 比 





第 6 章 EDDA 


(3) 查 全 率 见 图 6. 5。 





各 类 别 查 全 率 对 比 





查 全 率 
2 
d a 
2 
3 
& 






































0.9 
0.85 
0.8 - 
ud 1 2 | 3 
[CNaive 决 策 村 1 0.8571 | 0.9286 
[—e=AdaBoost.M2 1 1 | 0.9286 
[A AdaBoost MH 1 1 | 0.9286 
类 别 标 签 
图 6.5 各 类 别 查 全 率 对 比 
AdaBoost. MH 学 习 过 程 如 图 6.6 所 示 。 
035 
03 
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6.6 学 习 过 程 中 损失 值 变化 


随 着 学 习 轮 数 的 增加 ,整体 上 损失 逐渐 下 降 。 





nasa 


5. 经 验 总 结 


AdaBoost. MH 处 理 多 分 类 的 思想 是 把 多 分 类 任务 转化 成 二 分 类 任务 ， 
AdaBoost. M2 的 弱 分 类 器 仍 为 多 分 类 器 ,在 本 次 使 用 的 数据 集 上 ,两 种 算法 表现 一 
致 ,都 优 于 Naive 决策 树 。 

工程 实现 中 要 注意 浮 点 数 精度 。 


6. 代码 附录 


M = length(trainlabel); 
K = length(unique(trainlabel)); 


T = 200; % max number of weak learners 
D = zeros(M, K); % initialize weights 
D(:, :) = 1/ (M * K); % initialize weights 


alpha = zeros(T, 1); % initialize alpha 


fort - 1: T * train weak learners 
xr = 0; 
Y = zeros(M, K); 
h = zeros(M, K); 
forl=1:K 
Y(:, 1) = zeros(M, 1); 
Y(trainlabel == 1, 1) = 1; 
VOCs, 1) 95:0, 1) = —4; 
ctree(t, 1} = fitctree(traindata, Y(:, 1), 'Weights', D(:, 1)); % weak learners 


h(:, 1) = predict(ctree{t, 1}, traindata); % predict result of weak learner 


FS E> Saas; D) « ¥ V3, uy. © (ss 2))5 


end 
ifr>= 1 

break; 
end 


alpha(t) = 0.5 * log((1 + r)/ (1 - r)); % calculate alpha 
Z = sqrt(1 - r^2); % normalize factor 


D= D.» exp(-alpha(t) * Y.* h)./Z; % update weights 


end 
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fprintf('Train Stop at % d\n', t); 
T=t; 
H = zeros(length(testlabel), K); 
forl = 1 : K % final strong learner 
fort = 2:7 
H(:, 1) = H(:, 1) + alpha(t) * predict(ctree{t, 1}, testdata); 
end 
end 
clear 1; 
H = sign(H); 
predictlabel = zeros(length(testlabel), 1); 
for i = 1: length(testlabel) 
tmp = find(H(i, :) == max(H(i, :))); 
if length(tmp) == 1 
predictlabel(i) = tmp; 
end 
end 


clear i tmp; 
accuracy = sum(predictlabel == testlabel) / length(testlabel); 


ctree naive = fitctree(traindata, trainlabel) ; 
predict_label_ctree = predict(ctree_naive, testdata) ; 
accuracy_naive = sum(predict_label_ctree == testlabel) / length(testlabel) ; 


ClassTreeEns_M2 = fitensemble(traindata, trainlabel, 'AdaBoostM2', T, 'Tree'); 
rsLoss = resubLoss(ClassTreeEns M2, 'Mode', 'Cumulative') ; 

plot(rsLoss); 

predict test M2 - predict(ClassTreeEns M2, testdata); 

accuracy test M2 - sum(predict test M2-- testlabel) / length(testlabel); 


6.3.3 操作 实例 2: 基 于 ensemble 方法 的 人 脸 识别 


本 节 使 用 lfw 数据 集 ,进一步 为 读者 展示 使 用 MATLAB 自 带 的 ensemble 工具 
进行 人 脸 识别 的 pipeline。 

具体 任务 为 从 给 定 的 图 片 中 学 习 不 同人 脸 照 片 的 特征 ,并 且 能 够 将 给 定 图 片 分 
类 。 当 前 应 用 最 广泛 的 图 片 识别 方法 为 CNN,CNN 可 以 自 提取 图 片 特 征 , 且 性 能 明 
显 超过 传统 方法 。CNN 的 使 用 将 在 深度 学 习 章 节 介绍 ,本 章 实验 操作 部 分 给 出 基于 
传统 特征 的 分 类 方法 。 针 对 人 脸 识 别 的 传统 特征 ,可 以 利用 CNN 自动 进行 特征 提 
取 , 或 计算 专家 经 验 特征 hog、SURF(bag of visual words) 等 。 但 数据 集 巨 大 时 ,计算 
时 间 均 非常 长 , 若 需要 计算 高 级 别 复杂 的 特征 需要 服务 器 支持 。 
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由 于 本 实验 仅 为 说 明 性 实验 ,因此 并 未 划分 训练 数据 集 与 测试 数据 集 , 且 仅 采用 
hog 特征 值 。 


1. 算法 步骤 


步骤 1: 读 人 原始 数据 。 


步骤 2. 如 图 6.7 所 示 , 进 行人 脸 识别 预 处 理 , 从 原 图 中 识别 出 人 脸 略 去 背景 


信息 。 





Detected Face Input Face 





6.7. 人 脸 识别 预 处 理 


步 又 3: 如 图 6. 8 所 示 ,提取 hog 特征 。 


Detected Face 


Input Face Hog Feature 





图 6.8 提取 hog 特征 


步骤 4: 使 用 MATLAB 自 带 的 集成 方法 训练 分 类 器 ,得 到 结果 如 图 6.9 所 示 。 


>> Mdl = fitcensemble(hogFeature, imds.Labels, 'NPrint', 1, 'Learners', 'knn'); 


Training Subspace... 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 
learners: 


Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 
Grown weak 





6.9 MATLAB 训练 结果 展示 
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步骤 5. 预测 结果 。 
2. 代码 附录 


% % Face Recognition 


close all; clear; clc; 


% % Load Image Face Database 

imds = imageDatastore('data/lfw', 'IncludeSubfolders',true, 'LabelSource', 'foldernames') ; 
m = size(imds.Labels, 1); 

tbl = countEachLabel(imds) ; 

c = size(tbl, 1); 


% % Extract and display Histogram 
hogFeature = zeros(m, 4356); 
imresizeFactor = 100; 


faceDetector = vision. CascadeObjectDetector( 'FrontalFaceCART'); 


figure; 

queryFace = readimage(imds, 1); 

bbox = step(faceDetector, queryFace) ; 

queryFaceDetected = insertShape(queryFace, 'Rectangle', bbox, 'LineWidth', 5); 
subplot(1, 3, 1); imshow(queryFaceDetected); title('Detected face'); 
queryFace = imcrop(queryFace, bbox); 

queryFace = imresize(queryFace, imresizeFactor / size(queryFace, 1)); 
subplot(1, 3, 2); imshow(queryFace); title('Input Face'); 

[tmp, visualization] = extractHOGFeatures(queryFace) ; 

subplot(1, 3, 3);plot(visualization);title('HoG Feature'); 


% * Extract HOG Features for all training set 
* hogFeature = inmportdata( 'hogFeature.mat'); 
parfori- 1:m 
queryFace = readimage(trainingSet, i); 
bbox 7 step(faceDetector, queryFace); 
if isempty(bbox) 
bbox - [72 72 106 106]; 
end 
queryFace = imcrop(queryFace, bbox(1,:)); 
queryFace - imresize(queryFace, imresizeFactor / size(queryFace, 1)); 
hogFeature(i, :) = extractHOGFeatures(queryFace); 


end 





PUE 


% % Train the ensemble classifier 
Mdl = fitcensemble(hogFeature, imds. Labels, 'NPrint', 1, 'Learners', 'knn'); 


% % Predict 
predictRes = predict(Mdl, hogFeature) ; 
% predictRes = importdata('predictRes trainWithAll.mat'); 


% % Evaluate 
accuracy total = sum(predictRes == imds. Labels) / m; 


zeros(c, 1); 


" 


zeros(c, 1); 


zeros(c, 1); 


2238 


zeros(c, 1); 
precision = zeros(c, 1); 
recall = zeros(c, 1); 


accuracy = zeros(c, 1); 


parfori = 1:c 





name = tbl(i, 1); 

TP(i) = sum( (imds.Labels == name) & (predictRes name) ); 

FP(i) = sum( (imds.Labels ~ = name) & (predictRes == name) ); 
TN(i) = sum( (imds.Labels 一 = name) & (predictRes 一 = name) ); 


FN(i) = sum( (imds.Labels -- name) & (predictRes 一 = name) ); 

precision(i) = TP(i) / ( TP(i) + FP(i) ); 

recall(i) = TP(i) / ( TP(i) + FN(i)); 

accuracy(i) = ( TP(i) + TN(i) ) / ( TP(i) + TN(i) + FP(i) + FN(i)); 
end 


figure; 

subplot(3, 1, 1); plot(precision); title('Precision'); 
subplot(3, 1, 2); plot(recall); title('Recall'); 
subplot(3, 1, 3); plot(accuracy); title('Accuracy'); 


find(precision ~ = 1) 


find(recall ~ = 1) 
find(accuracy 一 = 1) 


习题 


l. 使 用 你 熟悉 的 语言 如 C++ Java 等 构造 出 一 个 随机 森林 。 
2. 使 用 Adaboost 对 决策 过 程 进 行 优化 。 


9 z 
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3. 下 载 ORL 人 脸 识 别 数据 库 ( 一 共 40 个 人 ,每 一 个 人 有 10 张 照片 ), 使 用 你 构 
造 出 来 的 随机 森林 对 人 脸 库 进行 人 脸 识 别 (每 个 人 的 第 4 张 和 第 8 张 照片 作为 测试 
集 , 其 余 为 训练 集 ) ,其 中 人 脸 识别 的 特征 提取 算法 可 以 选择 使 用 PCA/VHog/LBP 等 。 

4. 请 思考 ,在 决策 树 的 构造 过 程 中 ,为 了 防止 过 拟 合 ,会 有 剪 枝 策略 的 使 用 ,但 在 
随机 森林 中 ,是 不 需要 进行 剪 枝 的 ,这 是 为 什么 ? 


神经 网 络 基础 


人 工 智能 的 研究 者 为 了 模拟 人 类 的 认 知 (Cognition) ,提出 了 不 同 的 模型 。 人 工 
神经 网 络 (Artificial Neural Network，ANN) 是 人 工 智 能 中 非常 重要 的 一 个 学 派 -一 
连接 主义 (Connectionism) 最 为 广泛 使 用 的 模型 。 

基于 规则 的 符号 主义 (Symbolism) 学 派 认为 ,人 类 的 认 知 是 基于 信息 中 的 模式 ; 
而 这 些 模式 可 以 被 表示 成 为 符号 ,并 可 以 通过 操作 这 些 符号 , 显 式 地 使 用 逻辑 规则 进 
行 计算 与 推理 。 但 是 要 用 数理 逻辑 模拟 人 类 的 认 知 能 力 却 是 一 件 困 难 的 事情 ,因为 人 
类 大 脑 是 一 个 非常 复杂 的 系统 ,拥有 着 大 规模 并 行 式 分布 式 的 表示 与 计算 能 力 、 学 习 
能 力 、 抽 象 能 力 和 适应 能 力 。 

而 基于 统计 的 连接 主义 的 模型 则 从 脑 神经 科学 中 获得 启发 ,试图 将 认 知 所 需 的 功 
能 属性 结合 到 模型 中 来 ,通过 模拟 生物 神经 网 络 的 信息 处 理 方式 来 构建 具有 认 知 功能 
的 模型 。 类 似 于 生物 神经 元 与 神经 网 络 , 这 类 模型 具有 以 下 三 个 特点 。 

CD 拥有 处 理 信 号 的 基础 单元 ; 

(2) 处 理 单元 之 间 以 并 行 方式 连接 ; 

(3) 处 理 单元 之 间 的 连接 是 有 权重 的 。 

这 一 类 模型 被 称 为 人 工 神经 网 络 。 


7.1 基础 概念 


神经 元 : 神经 元 (如 图 7. 1 所 示 ) 是 基本 的 信息 操作 和 处 理 单位 。 它 接收 一 组 输 
入 ,将 这 组 输入 加 权 求 和 后 ,由 激活 函数 来 计算 该 神经 元 的 输出 。 
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o-f( wyxykwaxytb) 


» 
j 人 ° 
x 
7.1 神经 元 


输入 : 一 个 神经 元 可 以 接收 一 组 张 量 作为 输入 zx 一 (zavza，…yzo)。 
连接 权 值 : 连接 权 值 向 量 为 一 组 张 量 W= (wi sw s ,ww,) ,其 中 ,vw; 对 应 输入 >， 
的 连接 权 值 ; 神经 元 将 输入 进行 加 权 求 和 : 
sum 一 wie; 


写成 向 量 形式 ， 


sum — Wx 
AE: 有 时 候 加 权 求 和 时 会 加 上 一 项 常数 项 6 作为 偏 置 ; 其 中 , 张 量 4 的 形状 要 
与 Wx 的 形状 保持 一 致 
sum = Wx +b 
激活 函数 : 激活 函数 CO Be iti T e i A AL AN sum 上 ,产生 神经 元 的 输出 ; 这 
里 , 若 sum 为 大 于 1 阶 的 张 量 , 则 六 ,被 施加 到 sum 的 每 一 个 元 素 上 
o = f(sum) 
常用 的 激活 函数 有 : 
(1) SoftMax( 如 图 7. 2 所 示 )。 适 用 于 多 元 分 类 问题 ,作用 是 将 分 别 代表 个 类 


的 nn 个 标量 归 一 化 ,得 到 这 个 类 的 概率 分 布 。 
— expCr;) 
soltmax(z; ) pot 
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Input —— 
Output —— 











图 7.2 SoftMax 
(图 片 来 源 : https://github. com/torch/nn/blob/master/doc/transfer. md) 





finas siat 


(2) Sigmoid( 如 图 7. 3 所 示 )。 通 常 为 Logistic 函数 ,适用 于 二 元 分 类 问题 ,是 
SoftMax 的 二 元 版 本 。 
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图 7.3 Sigmoid 


(图 片 来 源 : https://github. com/torch/nn/blob/master/doc/transfer. md) 


(3) Tanh( 如 图 7.4 所 示 )。 为 Logistic 函数 的 变 体 。 


2c(z) 一 1 
ah gard BT 

















7.4 Tanh 
(图 片 来 源 : https://github. com/torch/nn/blob/master/doc/transfer. md) 
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(4) ReLU( 如 图 7. 5 所 示 )。 即 修正 线性 单元 (Rectified Linear Unit), HEA 
式 ,ReLU 具备 引导 适度 稀 玖 的 能 力 , 因 为 随机 初始 化 的 网 络 只 有 一 半 处 于 激活 状态 ; 
并 且 不 会 像 Sigmoid 那样 出 现 梯度 消失 的 问题 。 
ReLU (x)= max(0,x) 














图 7.5 ReLU 
(图 片 来 源 : https://github. com/torch/nn/blob/master/doc/transfer. md) 


输出 : 激活 函数 的 输出 。 即 为 神经 元 的 输出 。 一 个 神经 元 可 以 有 多 个 输出 wm ， 
oow, 对 应 于 不 同 的 激活 函数 Aa s foe fmo 

神经 网 络 : 神经 网 络 是 一 个 有 向 图 ,以 神经 元 为 顶点 ,神经 元 的 输入 为 顶点 的 人 
边 ,神经 元 的 输出 为 顶点 的 出 边 。 因 此 神经 网 络 实际 上 是 一 个 计算 图 ,直观 地 展示 了 
一 系列 对 数据 进行 计算 操作 的 过 程 。 

神经 网 络 是 一 个 端 到 端 (End-to-End) 的 系统 ,这 个 系统 接收 一 定形 式 的 数据 作为 
输入 ,经 过 系统 内 的 一 系列 计算 操作 后 ,给 出 一 定形 式 的 数据 作为 输出 ; 由 于 神经 网 
络 内 部 进行 的 各 种 操作 与 中 间 计 算 结 果 的 意义 通常 难以 进行 直观 的 解释 ,系统 内 的 运 
算 可 以 被 视 为 一 个 黑箱 子 , 这 与 人 类 的 认 知 在 一 定 程度 上 具有 相似 性 : 人 类 总 是 可 以 
接收 外 界 的 信息 (视听 ) ,并 向 外 界 输出 一 些 信息 (言行 ), 而 医学 界 对 信息 输入 到 大 
脑 之 后 是 如 何 进 行 处 理 的 则 知之 甚 少 。 

通常 地 ,为 了 直观 起 见 , 人 们 对 神经 网 络 中 的 各 顶点 进行 了 层次 划分 ,如 图 7. 6 所 示 。 

输入 层 隐藏 层 输出 层 











-— 


7.6 神经 网 络 





-机 器 学 习 基 础 


CD 输入 层 : 接收 来 自 网 络 外 部 的 数据 的 顶点 ,组 成 输入 层 。 

(2) 输出 层 : 向 网 络 外 部 输出 数据 的 顶点 ,组 成 输出 层 。 

(3) 隐藏 层 : 除了 输入 层 和 输出 层 以 外 的 其 他 层 , 均 为 隐藏 层 。 

训练 : 神经 网 络 被 预定 义 的 部 分 是 计算 操作 ,而 要 使 得 输入 数据 通过 这 些 操作 之 后 
得 到 预期 的 输出 , 则 需要 根据 一 些 实际 的 例子 ,对 神经 网 络 内 部 的 参数 进行 调整 与 修正 ; 
这 个 调整 与 修正 内 部 参数 的 过 程 称 为 训练 ,训练 中 使 用 的 实际 的 例子 称 为 训练 样 例 。 

监督 训练 : 在 监督 训练 中 ,训练 样本 包含 神经 网 络 的 输入 与 预期 输出 ; 在 监督 训 
练 中 ,对 于 一 个 训练 样本 (X,Y) ,将 X 输 入 神经 网 络 , 得 到 输出 Y; 我 们 通过 一 定 的 
标准 计算 Y 55 Y 之 间 的 训练 误差 ,并 将 这 种 误差 反馈 给 神经 网 络 , 以 便 神 经 网 络 调整 
连接 权重 及 偏 置 。 

非 监督 训练 : 在 非 监督 训练 中 ,训练 样本 仅 包含 神经 网 络 的 输入 。 


7.2 感知 机 


感知 机 的 概念 由 Rosenblatt Frank 在 1957 年 提出 ,是 一 种 监督 训练 的 二 元 分 
类 器 。 


7.2.1 单 层 感知 机 


考虑 一 个 只 包含 一 个 神经 元 的 神经 网 络 。 这 个 神经 元 有 两 个 输入 asas , 权 值 为 
zolvzuz。 其 激活 函数 为 符号 函数 


=]; 2 
f(x) sgn(z) = 
l, a 


根据 感知 机 训练 算法 ,在 训练 过 程 中 , 若 实际 输出 的 激活 状态 o 与 预期 输出 的 激 
活 状 态 y 不 一 致 , 则 权 值 按 以 下 方式 更 新 : 
w e wta. (y—o) .x 
其 中 ,ww 为 更 新 后 的 权 值 ,z 为 原 权 值 ,y 为 预期 输出 ,x 为 输入 ; a 称 为 学 习 率 ， 
学 习 率 可 以 为 固定 值 ,也 可 以 在 训练 中 适应 地 调整 。 
例如 , 设 定 学 习 率 "一 0. 01, 把 权 值 初始 化 为 w = —0. 2 w, 三 0.3, 若 有 训练 样 例 
Zi 二 5,z2 二 2;y 二 1, 则 实际 输出 与 期 望 输出 不 一 致 。 
o = sgn(—0.2X5--0.3X 2)=— 
因此 对 权 值 进行 调整 : 
uw, =—0.2+0.01K2K5=—0.1 
wz = 0.3+0.01K2X2=0.34 
直观 上 来 说 , 权 值 更 新 向 着 损失 减 小 的 方向 进行 , 即 网 络 的 实际 输出 o 越 来 越 接 
近 预 期 的 输出 y ,在 这 个 例子 中 我 们 看 到 ,经 过 以 上 一 次 权 值 更 新 之 后 ,这 个 样 例 输入 


© z 
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的 实际 输出 o=sgn( 一 0.1X5 十 0.34X2) 王 1, 已 经 与 正确 的 输出 一 致 。 
我 们 只 需要 对 所 有 的 训练 样 例 重复 以 上 的 步骤 ,直到 所 有 样本 都 得 到 正确 的 输出 
即 可 。 


7.2.2 多 层 感知 机 


7. 2. 1 节 中 的 单 层 感知 机 可 以 拟 合 一 个 超 平面 y aas Hor ,适合 于 线性 可 分 的 
问题 ,而 对 于 线性 不 可 分 的 问题 则 无 能 为 力 。 考 虑 异 或 函数 作为 激活 函数 的 情况 : 
1; ate 

异 或 函数 需要 两 个 超 平面 才能 进行 划分 。 由 于 单 层 感知 机 无 法 克服 线性 不 可 分 
的 问题 ,人 们 又 引入 了 多 层 感知 机 (如 图 7.7 所 示 ) ,实现 了 异 或 运算 。 


0 
Sf (21922) = | 





图 7.7 多 层 感 知 机 


图 7.7 中 的 隐藏 层 神经 元 hh «hs 相当 于 两 个 感知 机 ,分 别 构造 两 个 超 平面 中 的 


iss 


7.3 BP 神经 网 络 


在 多 层 感知 机 被 引入 的 同时 ,也 引入 了 一 个 新 的 问题 : 由 于 隐藏 层 的 预期 输出 并 
没有 在 训练 样 例 中 给 出 ,隐藏 层 节点 的 误差 无 法 像 单 层 感知 机 那样 直接 计算 得 到 。 为 
了 解决 这 个 问题 ,后 向 传播 (BackPropagation，BP) 算 法 被 引入 ,其 核心 思想 是 将 误差 
由 输出 层 向 前 层 后 向 传播 ,利用 后 一 层 的 误差 来 估计 前 一 层 的 误差 。 后 向 传播 算法 由 
Henry J. Kelley 在 1960 年 和 Arthur E. Bryson 在 1961 年 分 别提 出 。 使 用 后 向 传播 
算法 训练 的 网 络 称 为 BP HAMA. 


7.3.1 梯度 下 降 


为 了 使 得 误差 可 以 后 向 传播 ,梯度 下 降 的 算法 被 采用 ,其 思想 是 在 权 值 空间 中 朝 
着 误差 最 速 下 降 的 方向 搜索 ,找到 局 部 的 最 小 值 ( 如 图 7. 8 所 示 ) 。 


w w+ Aw 


7 © 





UE 


— ..... QLoss 
Aw =— a VLoss(w) = a 


其 中 ,w 为 权 值 ,a HAIR, Loss C) HRA BM. LAC RRA FERT AEK E 
输出 与 期 望 输出 之 间 的 误差 。 





图 7.8 梯度 下 降 
(图 片 来 源 : http: //pages. cs. wisc. edu/~dpage/cs760/ ANNs. pdf) 


常用 的 损失 函数 有 : 
CD. 平均 平方 误差 (Mean Squared Error，MSE) ,实际 输出 为 0;, 预 期 输出 为 yio 


Loss(0,y) = Il» lo; Mi [* 
i=1 
(2) ZLM Cross Entropy. CE). 
exp(zi) 
Loss (x; ) =— log Seta ) 
z 


由 于 求 偏 导 和 需要 激活 函数 是 连续 的 ,而 符号 函数 不 满足 连续 的 要 求 ,因此 通常 使 用 
连续 可 微 的 函数 ,如 Sigmoid 作为 激活 函数 。 特 别 地 ,Sigmoid 具有 良好 的 求 导 性 质 : 
a — c(1—o) 


使 得 计算 偏 导 时 较为 方便 ,因此 被 广泛 应 用 。 
7.3.2 后 向 传播 


使 得 误差 后 向 传播 的 关键 在 于 利用 求 偏 导 的 链 式 法 则 。 我 们 知道 ,神经 网 络 是 直 
观 展示 的 一 系列 计算 操作 ,每 个 节点 可 以 用 一 个 函数 fi CODE. 
如 图 7. 9 所 示 的 神经 网 络 则 可 表达 为 一 个 以 zw entes WB ty ,…,is 为 变量 
的 函数 : 
o = fsCws * f: (ws * fı (w tw *i)tws*i)t wit i4) 


在 梯度 下 降 中 ,为 了 求 得 As ,我 们 需要 用 链 式 规则 去 求 "Joss 
Bin ARGO, 


gui, 
Q s 
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了 
Loss(o, y) 


= 0 








图 7.9 链 式 法 则 与 后 向 传播 


9Loss _ 9Loss Ifs Ife | IA 
Ju, 3f, Ifa Ifi aw, 

通过 这 种 方式 ,误差 得 以 后 向 传播 到 并 用 于 更 新 每 一 个 连接 权 值 ,使 得 神经 网 络 
在 整体 上 逼近 损失 函数 的 局 部 最 小 值 ,从 而 达到 训练 目的 。 








7.4 eI E HR INIRE 


前 面 所 述 的 神经 网 络 都 是 由 一 层 或 多 层 感知 机 通过 不 同方 式 连接 组 成 的 ,每 个 感 
知 机 拟 合 一 个 超 平面 ,就 可 以 对 一 些 模式 进行 分 类 。 如 果 我 们 尝试 使 用 超 曲面 来 分 离 
不 同 的 模式 ,那么 就 需要 采取 某 种 方法 来 得 到 这 样 的 超 曲面 的 最 佳 逼 近 。 


7.4.1 精确 插值 与 径 向 基 荡 数 


我 们 的 目标 是 找到 一 个 可 以 分 离 不 同 模式 的 函数 C0 ,这 个 函数 是 一 个 超 曲面 。 
我 们 在 高 维 空间 进行 多 变量 的 精确 插值 ,使 得 该 曲面 通过 所 有 N 个 训练 样本 点 
Gi; y Bl 
F(x!)— y, i-—1l,-,N 
25 I6] AE PR "Cif (ELS Je CFFE — Rp f d ELS o F D dfi (P PRICES E f — ES 
点 并 且 曲 面 表面 的 总 曲率 最 小 。 具 体 做 法 是 选取 N HERR CA (||) ,每 个 基 
函数 对 应 一 个 训练 样本 (x;,y;)。 将 这 N 个 基 函 数 进行 线性 组 合 ,得 到 插值 函数 
F(z)= Ssillz—ail) 
其 中 ,|x 一 zi | 为 2- 范 数 ,具有 径 向 同性 的 性 质 ,因此 这 些 基 函数 被 称 为 径 向 基 函 
数 。 可 以 通过 适当 选取 各 基 函 数 的 权 值 wi ,… ,wn 来 使 得 插值 函数 下 (x) 通 过 每 一 个 
样本 点 。 可 以 通过 解 线性 方程 组 的 办 法 来 确定 权 值 。 令 
w= Gu swyn)" 
Y = Giu y? 
|" at) E —a" || d 
o-— i E i 
P [a au» = guCla*—s" | ;] 
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将 训练 样本 点 代入 插值 函数 中 ,可 得 到 如 下 形式 的 关于 权 值 的 线性 方程 组 : 


w =Y 
可 以 解 出 权 值 w=0 "Y. 
CU LETEC 
C1) 高 斯 函数 
2 
s= exv(7 zz). o>0 
(2) 多 面 函 数 
$(r)= (7 t6)*, o0 
(3) 道 多 面 函 数 


$(r)= (à +e), o>0 
(4) 薄板 样 条 函数 
$(r)= r'InG) 

(5) 三 次 函数 

$(r)2r 
(6) 线性 函数 

$(r)— 部 
此 处 不 详细 讨论 各 类 基 函 数 的 性 质 ,以 下 所 使 用 的 基 届 数 如 无 特殊 说 明 均 采用 高 

斯 函数 , 即 


$i(x) = ex(- Heer) 


7.4.2 径 向 基 函 数 网 络 


根据 7. 4. 1 节 中 的 插值 函数 ,可 以 画 出 它 的 计算 图 (如 图 7. 10 所 示 ) 。 





图 7.10 BHRAN 


这 个 计算 图 就 是 径 向 基 函 数 网 络 (Radial Basis Function Network, RBF 
Network), 4% m3 6 2c 24 h Broomhead 和 Lowe 在 1988 年 提出 。 这 个 神经 网 络 
包含 一 个 输入 层 ,一 个 隐藏 层 和 一 个 输出 层 。 输 入 层 的 节点 个 数 是 输入 向 量 a 的 维 
度 d ,隐藏 层 的 节点 个 数 为 训练 样 例 的 个 数 N, 输 出 层 的 节点 个 数 是 输出 向 量 y 的 维 
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ED. 输入 层 到 隐藏 层 的 权 值 均 为 1 ,隐藏 层 到 输出 层 的 权 值 为 插值 函数 中 各 基 油 数 
的 系数 WL WN 

以 上 形式 的 径 向 基 函 数 网 络 显 然 有 以 下 两 个 问题 。 

CD. 当 训 练 数据 量 很 大 的 时 候 , 如 果 隐 藏 层 的 节点 与 训练 样本 相同 ,计算 量 就 会 
非常 大 。 

(2) 对 噪声 非常 敏感 ,稳定 性 差 ; 这 是 因为 精确 插值 法 要 求 插值 函数 通过 所 有 数 
据点 。 

因此 在 实际 使 用 中 ,我 们 对 径 向 基 范 数 网 络 做 了 一 定 的 改进 : 基 函 数 的 个 数 不 再 
是 N, 而 是 一 个 选 定 的 M, 其 中 ,M 二 N。 这 M 个 高 斯 函数 的 中 心 y,… ,pw 有 以 下 几 
种 选择 方式 。 

(1) 随机 法 选取 ; 

(2) 用 K-Means 聚 类 法 选取 ; 

(3) 监督 学 习 法 选取 。 

其 中 ,随机 法 、K-Means 聚 类 法 选取 中 心 之 后 ,各 基因 数 中 心 及 方差 即 固定 下 来 ， 
在 学 习 权 值 的 时 候 不 再 调整 。 而 在 监督 学 习 法 中 , 基 函 数 的 中 心 n ，…, pm、 方差 
8) «t0 RAL w ,… ,rm 均 作为 神经 网 络 的 参数 ,采取 与 BP 神经 网 络 类 似 方式 用 梯 
度 下 降 法 进行 端 到 端的 训练 。 

随机 法 : 随机 选 定 M RS per oe ,pw 后 ,方差 04 e ,ou 由 中 心 之 间 的 最 大 距离 
d mx 或 平均 距离 dw 所 决定 , 即 
[ni — uil 

















d max 
max 1<i<M,1<j<M 
oil 一 … 一 av 
V2M V2M 
或 
2 M M 
gy — t = Om = 2d, M — vids 2 [ni — n] 


i=1 j=1 


K-Means 聚 类 法 : 将 N 个 样 例 中 心 zl,…,zN 分 成 M 个 类 ,使 用 这 M 个 类 的 
中 心 
Boo Ave (x) 


z’ € Class; 


作为 M PERAH, ARRA K-Means 聚 类 算法 ,最 优化 聚 类 损失 函数 
J=) D |e -sil? 


i=l J €Class, 


M Ar oto py oe ,pm 被 确定 之 后 ,0 ,… ,om 即 为 每 个 类 各 自 的 方差 。 

权 值 计算 : 随机 法 和 K-Means 聚 类 法 确定 了 隐藏 层 的 参数 之 后 ,还 需要 确定 的 
是 隐藏 层 到 输出 层 的 权 值 os ,… ,zew。 由 于 训练 样本 点 个 数 N 大 于 自由 变量 ( 权 值 ) 
的 个 数 M, 我 们 不 能 采用 精确 插值 中 求解 线性 方程 组 的 办 法 , 转 而 采用 监督 训练 的 方 
法 最 小 化 平方 和 损失 函数 (Sum-Squared Error) : 


Loss = +) [FG)- xl 
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其 中 ,| | 为 1- 范 数 。 在 损失 函数 的 全 局 最 低 点 , 它 对 所 有 权 值 的 偏 导数 都 为 
0, 因 此 有 





JLos  &r E TER 
^ wo —0'(06w—Y)—0 


与 7.4.1 节 中 不 同 ,由 于 @@ 不 再 是 方 阵 ,不 能 直接 求 逆 , 我 们 需要 通过 求 它 的 伪 逆 
来 解 此 方程 。 甸 的 伪 逆 为 ® — (070) 707. 
w-—OY 
为 了 使 得 插值 函数 更 加 平滑 ,在 随机 法 和 K- Means 聚 类 法 之 后 权 值 的 监督 训练 
过 程 中 以 及 在 监督 学 习 法 的 训练 过 程 中 ,都 可 以 向 损失 函数 中 加 入 正则 化 项 (参见 后 
面 正 则 化 相关 内 容 ) 。 


7.5 Hopfield 网 络 


Hopfield 网 络 由 John Hopfield 在 1982 年 提出 ,主要 用 于 联想 记忆 方面 : 通过 训 
练 ,将 一 些 模式 储存 于 网 络 中 ; 当 网 络 获得 一 个 输入 之 后 , 它 可 以 通过 若干 次 迭代 收 
剑 到 某 个 模式 上 。 这 可 以 用 于 例如 手写 字符 识别 等 任务 上 。 


7.5.1 Hopfield 网 络 的 结构 


从 直观 上 来 看 ,Hopfield 网 络 是 一 个 带 权 无 向 完全 图 ,如 图 7. 11 所 示 。 


图 7.11 具有 6 个 神经 元 的 Hopfield 网 络 


其 中 每 个 顶点 带 有 一 个 状态 : 1 或 一 1。 每 条 边 带 有 权重 且 双 向 的 权重 是 相同 
的 。 整 个 Hopfield 网 络 的 状态 是 各 神经 元 的 状态 组 成 的 字符 序列 s= {sss 
络 的 输入 为 这 样 的 字符 序列 s QD ,网 络 输出 是 它 下 一 时 刻 的 状态 s(t 十 1)。. 

由 于 网 络 的 拓扑 结构 是 一 个 完全 图 ,其 权 值 矩 阵 为 一 个 方 阵 : 

W = {wi oo 

这 个 权 值 矩 阵 沿 主 对 角 线 对 称 : 


ws =w; Vij 
y ji Jj 
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且 主 对 角 线 上 元 素 全 为 零 : 
w;—0, Vi 
节点 的 激活 函数 可 为 离散 型 的 ,如 符号 函数 / (ae) = sgn Cr) BORE BI A A BO 
散 型 Hopfield 网 络 ; 或 为 连续 型 函数 ,这样 的 网 络 称 为 连续 型 Hopfield 网 络 。 


7.5.2 Hopfield 网 络 的 训练 


Hopfield 网 络 中 可 以 训练 的 参数 为 权 值 矩阵 W. BP 神经 网 络 训练 所 使 用 的 基 
于 Delta 法 则 的 梯度 下 降 法 ,采取 的 是 迭代 更 新 权 值 的 方法 。 在 这 里 ,训练 方式 是 
基于 Hebb 法 则 的 , 即 当 两 个 相 邻 的 神经 元 总 是 同时 激活 ,它们 之 间 的 连接 得 到 加 
强 ; 反之 则 被 减弱 ,这 模拟 了 生物 神经 元 的 特性 。 并 且 每 个 训练 样本 只 被 训练 
—Ko 

对 于 一 组 M 个 训练 样本 s',…,s*, 权 值 按 如 下 方式 更 新 : 


wi = w = Di; es 
直觉 上 来 说 ,这 样 做 意味 着 当 两 个 相 邻 的 神经 元 同时 处 于 激活 状态 或 同时 处 于 非 
激活 状态 时 ,它们 之 间 的 权 值 加 上 1 ,连接 得 到 加 强 ; 当 两 个 相 邻 的 神经 元 的 状态 不 同 


(一 个 激活 而 另 一 个 非 激活 ) 时 ,它们 之 间 的 权 值 加 上 一 1 ,连接 被 削弱 。 


7.5.3 Hopfield 网 络 状态 转移 


网 络 状态 更 新 按 如 下 方式 进行 : 
Si(t) = (Zw. . sa-m) 


RRR RER, MAs (0 —WsT 0—1). 

按照 以 上 状态 更 新 方式 经 过 一 定 次 数 的 迭代 之 后 ,网 络 一 定 会 收敛 于 某 个 状态 ; 
这 个 状态 是 在 训练 中 储存 于 网 络 中 与 输入 状态 最 相近 的 模式 。John Hopfield 定义 的 
全 局 能 量 如 下 ， 

g—— Mw; * Sij 

我 们 可 以 认为 模式 被 储存 在 全 局 能 量 函 数 的 极 小 值 点 处 。 

在 数学 上 可 以 证 明 , 在 每 次 迭代 中 ,全 局 能 量 都 必然 会 下 降 , 因 此 经 过 若干 轮 迭 代 
之 后 ,全 局 能 量 将 到 达 离 输入 最 近 的 极 小 值 点 ,我 们 可 以 认为 它 就 是 网 络 中 储存 的 与 
输入 最 相近 的 模式 。 

经 验 表明 ,一 个 Hopfield 网 络 并 不 能 储存 无 限 多 的 模式 。 对 一 个 具有 个 节点 
的 Hopfield 网 络 来 说 , 它 最 多 只 能 储存 大 约 0.139Xn 个 训练 样本 中 出 现 过 的 模式 并 
成 功 将 其 复 现 。 
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7.6 Boltzmann 机 


Boltzmann 机 是 Hopfield 网 络 的 蒙特 卡 洛 版 本 , 它 由 Geoffrey Hinton 和 Terry 
Sejnowski 在 1985 年 提出 。 

隐 单 元 的 引入 : Boltzmann 机 与 Hopfield 网 络 具 有 类 似 的 结构 ,但 它 的 作用 不 再 
是 储存 和 记忆 模式 ,而 是 获得 到 输入 数据 的 表示 (Representation) ,其 实质 是 一 种 表示 
学 习 。 出 于 这 个 目的 ,Boltzmann 机 中 有 一 部 分 神经 元 为 隐 单 元 (Hidden Units) , BE 
不 接收 外 界 输入 也 不 向 外 界 输出 ; 其 余 的 神经 元 为 可 见 单元 (Visible Units) 。 学 习 到 
的 输入 数据 的 表示 被 储存 在 隐 单 元 中 。 

模拟 退火 : 由 于 网 络 的 作用 不 再 是 寻找 与 输入 最 相近 的 模式 ,我 们 不 再 满足 于 使 
网 络 能 量 到 达 最 近 的 极 小 值 点 ; 我 们 需要 找到 网 络 能 量 的 全 局 最 小 值 点 ,才能 学 习 到 
输入 数据 的 最 佳 表示 。 而 由 于 Hopfield 网 络 的 每 次 状态 转移 都 使 得 能 量 下 降 , 它 必 
然 会 陷 人 最 近 的 极 小 值 点 ,不管 这 个 极 小 值 点 是 否 全 局 最 小 。 因 此 我 们 面临 着 一 个 问 
题 : 如 何 跳出 局 部 极 小 值 点 。 

Boltzmann 机 采取 的 策略 是 引入 随机 噪声 ,使 得 网 络 能 量 在 状态 转移 中 不 仅 可 以 
降低 ,还 可 以 升 高 ,这 样 就 有 了 跳出 局 部 最 小 值 的 机 会 (如 图 7. 12 所 示 ); 而 后 在 训练 
中 逐步 降低 噪声 ,使 得 网 络 状 态 最 终 收敛 于 能 量 函 数 的 全 局 最 小 值 点 。 








ay 


Smin 


图 7.12 跳出 能 量 函 数 局 部 极 小 值 点 
(图 片 来 源 : https://www. academia. edu/5025760/Introduction_to_Boltzmann_Machine) 


上 述 过 程 与 金属 退火 的 过 程 相 类 似 : 一 开始 物体 温度 很 高 ,处 于 能 量 较 高 的 状 
态 ; 然后 逐渐 降低 温度 ,该 物体 中 各 原子 趋向 于 低能 量 状态 ,最 终 整个 物体 达到 能 量 
的 最 低 值 。 因 此 这 种 过 程 称 为 模拟 退火 (Simulated Annealing)。 物 体 降 温 的 过 程 中 
的 能 量 转移 服从 Boltzmann 分 布 律 ,因此 这 样 的 神经 网 络 称 为 Boltzmann 机 。 

状态 转移 : 为 了 模拟 能 量 的 Boltzmann 分 布 律 ,每 个 神经 元 的 激活 状态 不 再 以 确 
定 方式 转移 ,而 是 以 一 定 的 概率 进行 状态 转移 。 转 移 到 激活 状态 的 概率 为 : 


b(; = 1)— 7 
wg >) 
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其 中 ,T 代 表 人 工 温 度 ,在 训练 过 程 中 按照 一 定 方式 逐渐 下 降 , 以 模拟 退火 过 程 。 
例如 ,在 时 间 t: 
T(0) 
log(? 4-1)" 


> ws e s 则 代表 该 节点 的 能 量变 化 。 转 移 到 非 激活 状态 的 概率 为 


j 


T(t)— t0 


p(s ——1)— 1— p(s = 1) 

Boltzmann 训练 算法 : Boltzmann 机 训练 主要 分 为 以 下 三 个 阶段 。 

(1) 锁 死 阶段 。 这 一 阶段 将 所 有 可 见 单元 (输入 单元 和 输出 单元 ) 锁 死 到 系统 输 
人 上 , 即 只 对 隐 单 元 的 状态 进行 更 新 ; 通过 模拟 退火 过 程 使 得 网 络 收敛 到 某 个 状态 
上 ,然后 计算 相 邻 单元 状态 之 积 sie s 的 期 望 (5; ess 

(2) 自由 阶段 。 这 一 阶段 除了 输入 单元 以 外 ,其 他 神经 元 的 状态 都 自由 更 新 , 通 
过 模拟 退火 过 程 使 得 网 络 收敛 到 另 一 个 状态 上 ,然后 计算 相 邻 单元 状态 之 积 s; e s; 的 
WES) o 

(3) 权 值 更 新 阶段 。 对 连接 权 值 按 如 下 方法 进行 更 新 : 


Wy wy 2 . (Giss;)* —$6485) | 


限制 Boltzmann 机 : 随 着 神经 元 数目 的 增长 ,计算 开销 急剧 上 升 ,因此 在 实际 应 
用 中 通常 对 Boltzmann 机 做 改进 以 降低 计算 开销 。 限 制 Boltzmann 机 的 网 络 结构 (如 
图 7.13 所 示 ) 不 再 是 一 个 完全 图 ,而 是 一 个 二 分 图 。 限 制 Boltzmann 机 主要 用 于 
降 维 。 


隐 单 元 


可 见 单元 





7.13 限制 Boltzmann 机 


7.7. 自 组 织 喘 射 网 络 


自 组 织 映射 网 络 (Self-Organizing Maps，SOMD) 可 以 将 高 维 连续 空间 中 的 特征 向 
量 映射 到 低 维 离散 空间 ; 它 将 相似 的 输入 映射 到 相似 的 输出 。 它 主要 用 于 聚 类 .数据 
可 视 化 (将 高 维 数据 投射 到 低 维 空 间 ) 等 任务 ,采取 竞争 学 习 (Competitive Learning) 
进行 训练 ,是 一 种 非 监督 的 训练 方法 。 


7.7.1 网 络 结构 
在 生物 神经 网 络 , 尤 其 是 人 类 的 大 脑 神经 网 络 中 ,具有 相同 或 相似 功能 的 神经 元 
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往往 在 空间 分 布 上 也 集中 在 某 一 个 区 域 ; 这 预示 着 空间 位 置 邻近 的 神经 元 也 许 会 以 
某 种 方式 相互 影响 。 自 组 织 映 射 网 络 正 是 这 样 一 种 节点 的 功能 与 其 拓扑 位 置 有 关 的 
神经 网 络 ( 如 图 7. 14 所 示 )。 它 由 Teuvo Kohonen 在 1982 年 提出 ,因此 也 被 称 为 
Kohonen 网 络 。 





图 7.14 自 组 织 映射 网 络 
(图 片 来 源 http://www. lohninger. com/kohonen. html) 


自 组 织 映射 网 络 有 一 个 输入 层 和 一 个 输出 层 。 输 入 层 有 个 节点 ,代表 维 的 输 
As] fi x = (ary sas tts) 输出 层 有 个 节点 ,ys，…,y ,我 们 要 把 每 一 个 输入 向 
量 映 射 到 这 mx 个 节点 中 的 一 个 。 

与 其 他 神经 网 络 不 同 的 是 , 自 组 织 映 射 网 络 的 输出 层 节点 具有 一 定 的 拓扑 结构 : 
这 些 输出 节点 可 以 被 排列 在 一 维 、 二 维 ( 如 图 7. 15 所 示 )., 三 维 ( 如 图 7. 16 所 示 ) 或 更 
高 维度 的 空间 中 。 它 们 不 一 定 要 均匀 地 分 布 ,而 是 可 以 以 任意 密度 和 方式 排列 。 

每 个 输出 节点 具有 以 下 两 组 参数 。 

(1) —^ n AEBS SUL IRI E w= {w sw ,…,zw}, 它 对 应 于 输入 向 量 各 维度 上 的 特 
征 值 。 需 要 注意 的 是 ,这 里 的 权 值 向 量 并 不 用 于 对 各 输入 节点 进行 加 权 求 和 ,而 是 用 
于 比较 输出 与 输入 的 差别 。 

(2) 输出 节点 在 空间 中 的 位 置 。 
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图 7.15 二 维 空间 中 的 输出 节点 
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图 7.16 三 维 空间 中 的 输出 节点 
(图 片 来 源 : Christoph Brauer, An Introduction to Self-Organizing Maps) 


7.7.2 训练 算法 


在 训练 中 ,输出 节点 的 位 置 是 固定 不 变 的 ,而 连接 权 值 向 量 是 可 以 被 更 新 的 。 训 
练 按照 如 下 步骤 进行 。 

(1) 寻找 与 输入 向 量具 有 最 相似 权 值 向 量 w 的 输出 节点 “相似 ”的 度量 可 以 用 
两 个 向 量 的 差别 函数 diff(a,b) 来 衡量 ,常用 的 差别 机 数 有 欧 几 里 得 距离 .余弦 距离 
等 。 形 式 化 地 ,我 们 寻找 到 第 i 个 输出 节点 : 

i= argmin diff (x,w;) 

这 个 输出 节点 y; 被 称 为 * 胜 者 节点 ”(Winning Node), 

(2) 调整 输出 节点 的 权 值 。 如 果 我 们 用 输出 节点 空间 所 定义 的 距离 dist(a,b) 来 
衡量 节点 的 邻近 程度 ,那么 输出 节点 y; 的 权 值 调整 的 公式 如 下 (其 中 ,w 为 学 习 率 ): 

Wi *- w; +g. dist(y; «y;)* diff(x,w;) 

权 值 调整 的 原则 是 : 胜 者 节点 y; 的 权 值 向 量 w; 与 输入 向 量 x 的 联系 得 到 加 强 , 胜 
者 节点 的 邻近 节点 (Neighboring Nodes) 与 输入 向 量 的 联系 不 变 或 者 被 削弱 。 

需要 注意 的 是 , dist(*) 函数 直接 使 用 两 个 输出 节点 y;,y; 的 拓扑 距离 ;而 
diff(，) 函 数 则 是 关于 wj 与 x 之 间 的 拓扑 距离 a 的 函数 。 常 用 的 dist(*) 函 数 有 高 斯 函 
数 等 。Kohen 在 他 的 论文 中 提出 来 使 用 Mexican hat function fF Jy dist (+) PR CM 
图 7.17 所 示 ): 








dist(d) ( 和) exo "mA 
训练 结束 之 后 , 权 值 不 再 改变 ; 测试 时 输入 向 量 x 将 被 映射 到 拥有 与 其 最 相似 的 
权 值 向 量 w; 的 输出 节点 上 ,相似 程度 依然 以 dist(*) 函 数 度量 。 
以 这 样 方式 工作 的 自 组 织 映射 网 络 可 以 用 于 矢量 量化 (Vector Quantization)。 
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图 7.17 Mexican hat function 
例如 ,在 图 片 编码 中 ,对 于 每 一 个 像素 点 需要 储存 三 个 实数 值 (R,G,B), 这 梯 再 论 上 


就 有 256” 种 颜色 ; 而 实际 上 一 幅 图 片 中 使 用 到 的 颜色 并 没有 这 么 多 ,而 且 许 多 用 到 的 
颜色 之 间 非 常 相似 。 因 此 当 需 要 压缩 图 片 大 小 时 ,我们 把 每 个 像素 点 表示 成 一 个 三 维 
的 向 量 p 一 (R,G,B) ,作为 自 组 织 映 射 网 络 的 输入 ; 假设 只 保留 m 种 颜色 ,那么 输出 
层 则 设置 m 个 输出 节点 。 网 络 训练 完成 后 ,压缩 可 以 如 下 进行 : 图 片上 每 一 个 像素 点 
Pp 二 (R,G,B) 映 射 到 一 个 输出 节点 y; 上 ,于 是 一 个 像素 点 就 只 需要 用 一 个 整数 i 来 表 
示 , 需 要 储存 的 数据 量 也 就 减少 了 ,从 而 达到 压缩 的 目的 。 这 相当 于 把 可 能 出 现 的 任 
意 一 种 颜色 映射 到 这 m 种 颜色 中 与 它 最 相近 的 一 种 。 


7.8 实例 : 使 用 MATLAB 进行 Batch Normalization 


7.8.1 浅 识 Batch Normalization 


1. Training the neural network 


基于 对 数据 分 布 的 不 同 假设 ,通过 人 为 对 代价 函数 的 设计 ,神经 网 络 对 样本 的 学 
习 本 质 上 体现 为 一 个 优化 过 程 。 

如 何 改善 寻 优 过 程 , 使 其 收敛 速度 快 、 容 易 找 到 最 优 值 ,有 两 方面 工作 可 以 做 : 优 
化 算法 (L-BFGS, 以 及 其 他 基于 Momentum, X} Learning Rate 做 调整 的 方法 ) ,优化 
策略 (Weight Normalization Batch Normalization®) 。 

其 中 ,Batch Normalization(BN) 是 现在 最 常用 的 优化 策略 ,可 以 让 模型 更 加 容易 
优化 ,训练 加 快 , 泛 化 能 力 提高 。 几 乎 所 有 网 络 设计 时 都 会 考虑 BN。 


(D Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal 
covariate shift[J]. arXiv preprint arXiv: 1502. 03167. 2015. 


© 9 





第 7 章 神经 网 络 基 础 一 


2. Covariate shift 


在 神经 网 络 的 SGD 训练 中 ,我 们 假定 数据 分 布 是 保持 不 变 的 ,训练 数据 和 测试 数 
据 应 大 致 符合 同一 个 分 布 。 

神经 网 络 随 着 层 数 加 深 ,每 层 进行 非 线 性 变换 ,显然 数据 分 布 与 之 前 的 差异 逐 层 
dX. 


3. Whitening 


在 此 前 的 研究 工作 中 ,我 们 会 对 输入 数据 进行 白化 (Whitening) ,使 得 每 个 成 分 与 
其 他 成 分 独立 (去 除 相关 性 ) ,降低 输入 元 余 度 。 这 可 以 使 得 学 习 更 简单 ,网 络 收敛 更 
快 。(PCA 即 可 用 来 白化 。) 

那么 现在 ,我们 为 何不 在 过 每 一 层 网 络 之 前 ,都 把 输入 数据 白化 ,改善 神经 网 络 训 
练 困 难 的 问题 ? 

答案 是 因为 这 个 操作 本 身 计算 量 比较 大 ,对 于 大 数据 集训 练 的 NN 代价 太 高 。 


4. Batch Normalization 


我 们 不 对 整个 数据 做 白化 , 退 而 求 其 次 在 Batch 的 范围 内 做 ,只 考虑 每 一 维度 ( 激 
活 神经 元 的 输出 ) 各 自 Normalize, 均 值 0 方差 1, 然 后 再 输入 给 下 一 层 。 实 际 上 相当 
于 给 原来 的 网 络 中 间 加 了 一 层 BN 层 。 

并 是 上 一 层 给 的 输出 (如 果 上 一 层 不 是 输入 层 , 则 是 通过 激活 函数 后 的 输出 ),y 
是 通过 BN 层 后 的 输出 ,也 就 是 给 下 一 层 的 输入 o 

Input: Values of x over a nini - batch: B = {x,--,m} 


Parameters to be learned: y, 8 
Output: { y; = BN,5(x,)) 


pB -IDa //mini - batch mean 
iei 
is à n i 
oh ==) (x; — pB) //mini - batch variance 
i=l 
fe mA // i 
= normalize 
Job +e 


yi X6 +B= BNyp(x:) — //scale and shift 


但 是 强行 对 神经 网 络 做 这 种 粗暴 干涉 ,会 影响 其 表达 能 力 。 为 此 我 们 再 引入 一 些 
微调 ,也 就 是 给 BN 层 赋予 参数 7.8, 也 与 其 他 层 间 的 权 值 参数 一 起 进行 学 习 。 

在 SGD 训练 过 程 结束 后 ,再 进行 后 训练 ,计算 全 数据 集 上 该 维 的 均值 和 方差 (无 
偏 估计 ) ,将 BN 层 中 已 训练 好 的 7.8 蔡 换 修正 。 

如 下 所 示 ,k 是 上 一 层 的 激活 神经 元 个 数 。 


Input:Network N with trainable parameters 9 
Subset of activations ( x'* }f_, 





UE 


Output:Batch- normalized network for inference, Ni 


























1: NAN //Training BN network 
2:for k =1- K do 
3: Add transformation y*’ = BN %9 40 (x'? ) to NS 
4: Modify each layer in NE with input x? to take y“ instead 
5:end for 
6:Train Ni to optimize the parameters QU {7 , g^), 
7: NS NE / /Inference BN network with frozen parameters 
8:fork=1+-K do 
9: //for clarity, =x" ,y=7® , pb pi? , etc. 
10: Process multiple training mini ~ batches B, each of size m, and average over them: 
E[x]-E, [ub] 
Var[x] -T 1E [o] 
11: In Ni& , replace the transform y = BNr, (x) with 
_ y ( __ Elz] ) 
= Ur B 
Var[x] * € Varlı] te 
12:end for 
注意 由 于 给 网 络 新 加 入 了 一 层 , 反 向 传播 的 计算 有 所 改变 ,如 下 所 示 。 
a. al 
az; Iyi 
al wl =] E 
* Gi de ob te) 
ad 2i po c Im e 
a — 2r; — uB) 
al (X2 =i pä » i 
0B 125 JA ut m 
a 31.1 aL .2 一 AB) | al 1 








Ixi Ak, Jo te Jo m ouB "m 








al v Al 
3-2 

5. Experiments 

BN 有 效 提升 网 络 训练 速度 以 及 准确 率 , 并 使 得 分 布 更 加 稳定 。 


7.8.2 MATLAB nntool 使 用 简介 


MATLAB 是 非常 强大 的 数值 计算 工具 ,包含 很 多 机 器 学 习 相 关 的 工具 箱 可 供用 
户 操 作 。 下 面 对 MATLAB 神经 网 络 工 具 箱 进行 简单 介绍 。 
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在 MATLAB 命令 行内 输入 nnstart 命令 ,开启 神经 网 络 工具 箱 , 如 图 7. 18 所 示 。 


Neural Network Start (nnstart) 


Welcome to Neural Network Start 
Learn how to solve problems with neural networks. 


Se Sees More Information | 





Each of these wizards helps you solve a different kind of problem, The last 
panel of each wizard generates a MATLAB script for solving the same or 
similar problems, Example datasets are provided if you do not have data of 
your own. 


@ Fitting app. 
Input-output and curve fitting. (nftool) 
Pattern recognition and classification, 49 Pattern Recognition app | (nprtool) 
Clustering. Clusterit (nctool) 
Dynamic Time series. CELL 0 
@ Time Series app 





图 7.18 开启 网 络 工具 箱 


利用 神经 网 络 进行 模式 识别 与 分 类 ,就 可 以 单 击 Pattern Recognition app, 或 者 直 
接 在 命令 行 输 入 nprtool。 如 果 利 用 神经 网 络 继续 数据 聚 类 ,那么 就 可 以 单 击 
Clustering app, 或 者 在 命令 行 输入 nctool。 

下 面 以 模式 识别 工具 箱 为 例 ,如 图 7. 19 所 示 。 


Neural 


Welcome to the Neural Pattern Recognition app. 
Solve a pattern-recognition problem with a two-layer feed-forward network. 





Introduction. Neural Network. 


In pattern recognition problems, you want a neural network to classify 
inputs into a set of target categories. Hidden Layer. Output Layer 


Input Output 
For example, recognize the vineyard that a particular bottle of wine came 
from, based on chemical analysis ("ine start or classify a tumor as 
benign or malignant, based on uniformity of cell size, clump thickness, 
mitosis (cancer dataset 


The Neural Pattern Recognition app will help you select data, create and 
train a network, and evaluate its performance using cross-entropy and A two-layer feed-forward network, with sigmoid hidden and softmax 








confusion matrices. ‘output neurons (p371e 7n«^ can classify vectors arbitrarily well, given 
‘enough neurons in its hidden layer. 
The network will be with scaled conjugate gradient 
backpropagation i756). 
Wi To continue, click [Next]. 
@ Neural Network start] MA welcome tack ne) cancel 





7.19 模式 识别 工具 箱 
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在 神经 网 络 模式 识别 工具 箱 的 首页 中 ,MATLAB 介绍 了 神经 网 络 的 基本 架构 : 
两 层 网 络 , 带 有 Sigmoid 隐藏 层 与 Softmax 输出 层 , 在 给 定 足够 多 数量 隐 层 单元 的 情 
况 下 可 以 进行 分 类 操作 。 网 络 将 使 用 改进 后 的 梯度 下 降 方法 进行 训练 。 单 击 Next 
按钮 进行 下 一 步 。 

在 窗口 左 侧 可 以 从 当前 Workspace 中 选择 训练 数据 ,如 图 7. 20 和 图 7. 21 所 示 ， 
如 果 只 是 想 尝试 一 下 神经 网 络 , 也 可 以 直接 导入 工具 箱 中 自 带 的 训练 数据 。 单 击 


Load example data set, 


Neural Pattern Recognition (nortool) 


Select Data 

What inputs and targets define your pattern recognition problem? 
Get Data from Workspace Summary 
Input data to present to the network. No inputs selected. 
Be inputs: p 了 
Target data defining desired network output. No targets selected. 
© Targets: (none) t 
Samples are: © [W] Matrix columns C [E] Matrix rows 


Want to try out this tool with an example data set? 


Load Example Data Set 


@ select inputs and targets, then click (Next. 


p Neural network start) | M welcome *ua us [Qus 





图 7.20 选择 数据 (1) 


Pattern Recognition Data Set Chooser 





Select a data set: Description 
Simple Classes Filename: iris dataset. 
dris Flowers 
Breast Cancer Pattern recognition is the process of training a neural network to assign 
Types of Glass the correct target classes to a set of input patterns. Once trained the 
Thyroid network can be used to classify patterns it has not seen before. 
Wine Vintage 


This dataset can be used to create a neural network that classifies iris 
flowers into three species. 


LOAD iris dataset.MAT loads these two variables: 
irisInputs ~ a 4x150 matrix of four attributes of 1000 flowers. 


1. Sepal length in cm 
2. Sepal width in cm 
3. Petal length in cm 
4. Petal width in cm 


irisTargets ~ a 3x150 matrix of 1000 associated class vectors 
defining which of four classes each input is assigned to. Classes 
are represented by a 1 in one of four rows, with zeros in the others. 











® Impor @ Cancel 


7.21 选择 数据 (2) 





$75 He amas aa 


选择 Iris Flowers 数据 集 。 该 数据 集 包 含 150 个 样本 ,每 个 样本 包含 4 个 特征 值 ， 
分 别 是 花 的 长 度 、 宽 度 等 人 工 提取 的 经 验 特征 值 。 目 标 类 别 共 有 三 种 。 即 输入 为 4X 
150 的 矩阵 ,输出 为 3X150 的 矩阵 (每 一 列 仅 有 一 个 元 素 为 1, 代 表 样 本 所 属 的 类 别 ， 
其 余 位 置 为 0) 。 

在 选择 数据 页 面 ,有 说 明 当 前 数据 和 矩阵 的 行列 的 代表 意义 ,注意 不 要 设置 反 ( 如 
图 7.22 Bras). 


Validation and Test Data 
Set aside some samples for validation and testing. 
Select Percentages Explanation 
A Randomly divide up the 150 samples: Aly Three Kinds of Samples: 
WM Training: 70% 104 samples | @ Training 
These are presented to the network during training, and the network is 
@ Validation: | 155 C 23 samples adjusted according to its error. 
@ Testing IN 23 samples @ Validation: 
= These are used to measure network generalization, and to halt training 
generalization stops improving. 
@ Testing: 


p of 
network performance during and after 


Restore Defaults 


Mj Change percentages if desired, then click [Next] to continue. 


@ Neural Network tart| | MA Welcome Oud Net (O Cane 





图 7.22 选择 数据 (3) 


划分 训练 数据 集 、 验 证 数据 集 、 测 试 数据 集 。 默 认 按照 70 : 15 : 15 来 划分 。 简 单 
来 说 ,训练 数据 用 来 在 给 定 参数 下 训练 模型 ,验证 数据 用 来 调试 参数 ,测试 数据 完全 不 
参与 训练 ,用 于 最 后 评估 模型 。 

设置 网 络 架构 ,如 图 7. 23 所 示 。 设置 隐藏 层 神经 元 数目 ,一般 来 说 ,神经 元 数 越 
多 网 络 能 力 更 强 , 但 是 训练 更 困难 。 

开始 训练 网 络 ,如 图 7. 24 所 示 , 模 型 会 使 用 优化 算法 不 断 寻 求 更 小 的 代价 函数 
值 。MATLAB 将 自动 打开 一 个 新 的 界面 ,显示 训练 进度 等 相关 信息 ,如 图 7. 25 
所 示 。 

最 上 面 的 网 络 架构 图 ,显示 训练 出 的 神经 网 络 , 有 4 个 输入 节点 ,隐藏 层 有 10 个 
单元 ,输出 层 有 3 个 节点 。 下 面 显示 数据 的 划分 方式 (随机 )、 训 练 优化 算法 (Scaled 
Conjugate Gradient, 一 种 改进 后 的 梯度 下 降 ) 、 性 能 评估 方式 (交叉 粹 )。 进 度 部 分 ,最 
大 和 迭代 次 数 为 1000, 训 练 15 次 就 已 收敛 ,满足 了 预 设 的 性 能 要 求 ,训练 结束 。 训 练 时 
间 不 到 1s。 查 看 性 能 图 ,可 以 看 到 随 着 训练 进行 ,在 训练 数据 、 验 证 数据 、 测 试 数据 集 
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Neural Pattern Recognition (nortool) 

Network Architecture 

‘Set the number of neurons in the pattern recognition network's hidden layer. 
Hidden Layer. Recommendation. 
Define a pattern recognition neural network. (patternnet) Return to this panel and change the number of neurons if the network does 

not perform well after training. 
Number of Hidden Neurons: lo 
Restore Defaults 
Neural Network. 
Hidden Layer Output Layer 





Bp. Change settings f desired, then click [Next] to continue. 


di Neural Network start| | MA Welcome tack |W Neat cance! 





图 7.23 设置 网 络 结构 


Neural Pattern Recognition (nortool) 


Train Network 
Train the network to classify the inputs according to the targets. 





Train Network Results 

Train using scaled conjugate gradient backpropagation. (trainscg) & samples ce EL 
vc @ Training: 104 - 
~ 一 @ Validation: a - - 

resting: E - 

Training automatically stops when generalization stops improving, as 

Indicated by an increase in the cross-entropy error of the validation em c 

samples. 

Notes 

ww Training multiple times will generate different results Minimizing Cross-Entropy results in good 

due to different intial conditions and sampling. E classification. Lower values are better. Zero means 
no error. 


Percent Error indicates the fraction of samples which 
gj ME misclassified. A value of O means no 
misclassifications, 100 indicates maximum 





@ Train network, then click [Next} 


dp Neural Network start| | NA wekome ack) rer [Q cancel 








7.24 训练 
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Neural Network Training (nntraintool) 


Neural Network 





Hidden Output 
Input Output 


4 3 
10 E] 








Algorithms - 
Data Division: Random (dividerand) 

Training: Scaled Conjugate Gradient (trainscg) 
Performance: Cross-Entropy (crossentropy) 
Calculations: MEX 








; Progress 
Epoch: o 1000 
Time: 0:00:00 


Performance: 0.549 ME | 0.00 
Gradient: 0.406 [Eee | 1.00e-06 
Validation Checks: 0 [EE] e 

















Plots 
Performance (plotperform) 
Training State (plottrainstate) 
Error Histogram (ploterrhist) 
Confusion (plotconfusion) 
Receiver Operating Characteristic (plotroc) 
Plot Interval: > , lepochs 





Y Validation stop. 


Q Stop Training @ Cance! 








7.25 验证 


上 的 性 能 ,如 图 7. 26 所 示 。 

查看 混 清和 矩阵 (如 图 7. 27 所 示 )。4 个 混 清和 矩阵 分 别 代表 网 络 在 训练 数据 集 、 验 
证 数据 集 、 测 试 数据 集 以 及 全 数据 集 上 的 性 能 表现 。 对 角 线 元 素 代表 准确 分 类 的 样本 
数 和 比例 ,其 他 代表 错误 。 

如 果 对 网 络 的 性 能 不 满意 ,可 以 尝试 继续 训练 ,或 者 调整 网 络 大 小 ,如 图 7. 28 所 
示 , 引 入 更 大 的 数据 集 。 

最 后 ,工具 箱 还 可 以 根据 刚才 图 形 化 界面 上 的 设 定 , 直接 生成 相对 应 的 
MATLAB 代码 。 单 击 Simple Script 按钮 生成 基本 版 , 单 击 Advanced Script 按钮 生 
成 高 级 版 。 高 级 版 本 可 以 更 加 详细 地 设置 各 种 功能 ,如 划分 数据 的 方法 、 性 能 的 评估 
方法 等 。 
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Neural Network Training Performance (plotperform), Epoch 15, Validation stop. 























File Edit View Insert Tools Desktop Window Help E 
Best Validation Performance is 0.044567 at epoch 9 
o? 
b rm 
akin 
—re 
Best 
> 
|- 
10? 
o 5 10 15 
15 Epochs 








图 7.26 训练 效果 


Neural Network Training Confusion (plotconfusion), Epoch 15, Validation stop. 


File Edit View Insert Tools Desktop Window Help 





Training Confusion Matrix 















7.27 混淆 矩阵 
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Neural Pattern Recognition Incrtool 


Evaluate Network 
Optionally test network on more data, then decide if network performance is good enough. 
iterate for improved performance Optionally perform additonal tests 
E Inputs: = 5 


Try training again if a first try did not generate good results. 





or you require marginal improvement. Cp 
Ya train agan a 
No inputs selected. 
Increase network size if retraining did not help. 
‘Adjust Network Size 
a = No targets selected. 
Not working? You may need to use a larger data set. 
$ import Larger DataSet @ Test Network 
acc 
LL 
Plot Confusion. Plot ROC 
@ select inputs and targets, click an improvement button, or click [Next] 
@ Neural Network Start | HA Welcome tack (Net [O cance! 








图 7.28 调整 网 络 参数 


网 络 本 身 以 及 网 络 的 输出 可 以 在 这 里 手动 保存 ,如 图 7. 29 所 示 。 


Neural Pattern Recognition (nortool) 


Save Results 
Generate MATLAB scripts, save results and generate diagrams. 


Generate Scripts. 
Recommended »» Use these scripts to reproduce results and solve similar problems. 


Generate a script to train and test a neural network as you just did with this tool: B simple script 


Generate a script with additional options and example code: B) Advanced Script 


Save Data to Workspace 


@ 7 Save network to MATLAB network object named: net 

© (7 Save performance and data set information to MATLAB struct named: info 

Ml (V Save outputs to MATLAB matrix named: output 
MF Save errors to MATLAB matrix named: error 
BR © Save inputs to MATLAB matrix named: input 
© © Save targets to MATLAB matrix named: target 
E © Save ALL selected values above to MATLAB struct named: results 

Restore Defaults & Save Resuts 





@ save results and click (Finish). 


db Neural Network start | | MA wekome Oua) ner O Fash 








图 7.29 保存 训练 结果 
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进一步 ,我们 查看 下 刚刚 工具 箱 自 动 生成 的 神经 网 络 代 码 。 其 中 训练 函数 默认 使 
用 的 是 Scaled Conjugate Gradient。 还 可 以 尝试 蔡 换 成 其 他 函数 来 观察 一 下 性 能 。 

替换 为 传统 梯度 下 降 方法 (如 图 7. 30 所 示 )。 算 法 迭代 至 设 定 最 大 次 数 1000 次 
仍 未 达到 Scaled Conjugate Gradient 迭代 15 次 时 的 性 能 。 


Neural Network Training Performance (plotperform), Epoch 1000, Maximum epoch reached, 
File Edit View Insert Tools Desktop Window Help E 





Best Validation Performance is 0.11387 at epoch 1000 


10° —— nn 


Cross-Entropy (crossentropy) 





L Li | 1 L n 1 " i 
0 10 20 30 400 600 70 80 90 100 


500 
1000 Epochs 
7.30 传统 梯度 下 降 法 性 能 


其 他 优化 算法 在 此 不 再 全 部 罗列 上 ,请 读者 自行 阅读 文献 了 解 区 别 ,并 尝试 性 能 。 
通常 ,The quasi-Newton method(trainbfg) 与 (trainlm) 是 收敛 速度 非常 快 的 算法 ,但 
是 在 应 用 至 大 型 网 络 时 ,trainlm 需要 更 多 的 内 存 ,trainbfg 由 于 需要 计算 矩阵 的 逆 ， 
因此 计算 时 间 呈 几何 式 增长 ,可 能 效率 会 较 低 。Scaled Conjugate Gradient(trainscg) 
相对 来 说 需要 更 小 的 内 存 , 所 以 适合 训练 大 型 网 络 , 比 标准 的 梯度 下 降 要 快 很 多 。 
The variable learning rate algorithm (traingdx) 通 常 来 说 比 其 他 算法 要 慢 , 但 是 在 一 
些 场景 中 比较 适用 (收敛 缓慢 一 些 ) 。 


习题 


1. 假设 银行 要 给 申请 贷款 的 客户 分 成 信用 好 和 信用 坏 两 类 。 现 有 一 描述 客户 的 
数据 集 ,内 含 以 下 属性 : 婚姻 状态 {已 婚 , 未 婚 ,离婚 ,其 他 } ,性 别 { 男 性 ,女性 , 双 性 , 跨 
性 ,无 性 ,其 他 } ,年 龄 {[18,30),[30,50),[50,65),[65 十 )}, 收 入 {[10k,25k),[25k， 
50k) ,[50k,65k),[65k,100k) ,[100k 十 )}。 设 计 一 个 可 被 训练 的 神经 网 络 ,可 以 将 信 
用 好 的 客户 和 信用 坏 的 客户 区 分 开 。 
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2， 如 图 7. 31 所 示 神 经 网 络 被 用 于 区 分 直 钉 与 螺丝 钉 ， 


(6)-0.1 (7)o6 output 
neurons 
<f -0.2 


0.6 hidden 





图 7.31 神经 网 络 


初始 化 的 权重 如 各 箭头 旁 数字 所 示 ,初始 化 的 偏 置 如 各 节点 旁 数 字 所 示 ,节点 标 
号 如 圆圈 内 所 示 。 

现 有 训练 样 例 {输入 1, 输 入 2, 输出 结果 }: Ti{0.6, 0.1, 直 钉 },T,{0.2, 0.3, 螺 
丝 钉 }。 

(1) 输出 节点 有 两 个 ,如 何 表示 直 钉 /螺丝 钉 的 分 类 结果 ? 

(2) 假设 学 习 率 为 0. 1。 动 手 模拟 两 个 样 例 的 训练 过 程 , 列 出 使 用 {T,，T,) 作 为 
训练 集 进 行 一 次 迭代 之 后 的 权重 和 偏 置 。 

3. 神经 网 络 与 支持 向 量 机 分 别 应 在 什么 情况 下 使 用 ? 
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8.1 什么 是 深度 神经 网 络 


本 章 将 介绍 两 种 在 深度 学 习 领 域 最 为 流行 且 较 为 成 熟 应 用 的 网 络 构 型 : 卷 积 神 
经 网 络 与 循环 神经 网 络 。 它 们 都 属于 采用 后 向 传播 算法 训练 的 BP 神经 网 络 ,之 所 以 
被 称 为 深度 神经 网 络 ,是 因为 它们 的 隐藏 层 数 较 多 ,深度 ” 较 深 。 

我 们 知道 ,神经 网 络 可 以 被 用 来 作为 本 数 逼近 器 ,传统 上 神经 网 络 的 主要 作用 被 
认为 是 作为 一 种 函数 映射 。 但 是 理论 上 ,使 用 一 层 隐藏 层 的 神经 网 络 已 经 可 以 表示 任 
意 复杂 的 函数 映射 ,那么 为 何 要 采用 更 多 的 隐藏 层 呢 ? 直 到 在 图 像 处 理 领 域 进行 了 一 
些 深度 神经 网 络 的 尝试 之 后 ,人 们 发 现 神经 网 络 的 能 力 不 仅 在 于 表示 复杂 的 两 数 映 
射 , 还 在 于 抽取 图 像 中 不 同 层次 ` 反 复出 现 的 特征 ; 而 多 层 的 隐藏 层 正好 为 抽取 这 些 
不 同 层 次 的 特征 提供 了 一 种 潜在 的 结构 。 

然而 如 果 要 增加 隐藏 层 ,研究 者 不 得 不 面 对 的 一 个 问题 就 是 : 每 增加 一 层 隐 藏 
层 ,隐藏 层 中 每 增加 一 些 节点 ,网 络 参 数 都 要 增加 不 少 ; 大 量 的 参数 使 得 网 络 的 训练 
变 得 十 分 困难 ,并 且 计 算 和 储存 开销 都 很 高 。 不 解决 这 个 问题 ,基于 深度 神经 网 络 的 
模型 就 无 法 有 效 发 挥 它 的 作用 。 

而 在 实践 中 ,研究 者 们 采取 的 策略 是 : 让 深度 神经 网 络 中 一 些 组 件 共享 参数 。 一 
类 神经 网 络 在 空间 位 置 之 间 共享 参数 ,这 类 神经 网 络 的 代表 是 卷 积 神经 网 络 ,它们 被 
广泛 应 用 于 处 理 图 像 ; 另 一 类 神经 网 络 在 时 间 线 上 共享 参数 ,这 类 神经 网 络 的 代表 是 
循环 神经 网 络 ,它们 被 广泛 应 用 于 序列 的 处 理 上 ,例如 文本 处 理 。 
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8.2 卷 积 神 经 网 络 


8.2.1 卷 积 神经 网 络 的 基本 思想 


卷 积 神经 网 络 最 初 由 Yann LeCun 等 人 在 1989 年 提出 ,是 最 初 取得 成 功 的 深度 
神经 网 络 之 一 。 它 的 基本 思想 如 下 。 


l. 局 部 连接 


传统 的 BP 神经 网 络 , 例 如 多 层 感知 机 ,前 一 层 的 某 个 节点 与 后 一 层 的 所 有 节点 
都 有 连接 ,后 一 层 的 某 一 个 节点 与 前 一 层 的 所 有 节点 也 有 连接 ,这 种 连接 方式 称 为 全 
局 连接 (如 图 8. 1 所 示 )。 如 果 前 一 层 有 M 个 节点 ,后 一 层 有 N 个 节点 ,就 会 有 MXN 
个 连接 权 值 , 每 一 轮 后 向 传播 更 新 权 值 的 时 候 都 要 对 这 些 权 值 进行 重新 计算 ,造成 了 
O(MX N) —OGQ ) 的 计算 与 内 存 开 销 。 





图 8.1 全 局 连接 的 神经 网 络 
(图 片 来 源 : Goodfellow et al. Deep Learning , MIT Press. ) 


而 局 部 连接 的 思想 就 是 使 得 两 层 之 间 只 有 相 邻 的 节点 才 进 行 连接 , 即 连接 都 是 
“局 部 ”的 (如 图 8. 2 所 示 )。 以 图 像 处 理 为 例 ,直觉 上 ,图 像 的 某 一 个 局 部 的 像素 点 组 
合 在 一 起 共同 呈现 出 一 些 特征 ,而 图 像 中 距离 比较 远 的 像素 点 组 合 起 来 则 没有 什么 实 
际 意 义 , 因 此 这 种 局 部 连接 的 方式 可 以 在 图 像 处 理 的 问题 上 有 较 好 的 表现 。 如 果 把 连 
接 限制 在 空间 中 相 邻 的 c 个 节点 ,就 把 连接 权 值 降低 到 了 ON ,计算 与 内 存 开销 就 降 
低 到 了 O(cXN)-0G0., 


Q Q & (Go (9 


c) & & 69 (9 


图 8.2 局 部 连接 的 神经 网 络 
(图 片 来 源 : Goodfellow et al. Deep Learning , MIT Press. ) 


w © 





有 机 器 学 习 基础 


2. 参数 共享 


既然 在 图 像 处 理 中 ,认为 图 像 的 特征 具有 局 部 性 ,那么 对 于 每 一 个 局 部 使 用 不 同 
的 特征 抽取 方式 ( 即 不 同 的 连接 权 值 ) 是 否 合理 呢 ? 由 于 不 同 的 图 像 在 结构 上 相差 其 
远 ,同一 个 局 部 位 置 的 特征 并 不 具有 共性 ,对 于 某 一 个 局 部 使 用 特定 的 连接 权 值 不 能 
得 到 更 好 的 结果 。 因 此 考虑 让 空间 中 不 同位 置 的 节点 连接 权 值 进行 共享 : 例如 在 图 
8.2 中 ,属于 节点 so 的 连接 权 值 : 
W = {w ww | wr iTi > Sp $ We iX > S25 Wy :Ts > S2) 
可 以 被 节点 s3 以 
w= {w ws ws | wr :Ta > Sy Wz :T3 > S3 jW Xa — 53} 
的 方式 共享 。 其 他 节点 的 权 值 共享 类 似 。 
这 样 一 来 ,两 层 之 间 的 连接 权 值 就 减少 到 c 个 ; 虽然 在 前 向 传播 和 后 向 传播 的 过 
程 中 ,计算 开销 仍 为 O(n) ,但 内 存 开 销 被 减少 到 常数 级 别 O(c) 。 


8.2.2 卷 积 操作 


离散 的 卷 积 操作 正 是 这 样 一 种 操作 , 它 满足 了 以 上 局 部 连接 .参数 共享 的 性 质 。 
代表 卷 积 操作 的 节点 层 称 为 卷 积 层 。 
FEZ PR Ar rh , 卷 积 被 g 定义 为 


uo [fea n 
则 一 维 离散 的 卷 积 操作 可 以 被 定义 为 
(fx*g) (x)= Mf Gg i) 
现在 ,假设 /与 g 分 别 代表 一 个 从 向 量 下 标 到 向 量 元 素 值 的 映射 , 令 / 表示 输入 
向 量 ,g 表示 的 向 量 称 为 卷 积 核 (KerneD) , 则 卷 积 核 施加 于 输入 向 量 上 的 操作 类 似 于 
一 个 权 值 向 量 在 输入 向 量 上 移动 ,每 移动 一 步 进 行 一 次 加 权 求 和 操作 ; 每 一 步 移动 的 
距离 被 称 为 步 长 (Stride) 。 例 如 , 取 输 入 向 量 大 小 为 5, 卷 积 核 大 小 为 3, 步 长 1, 则 郑 
积 操作 过 程 如 图 8. 3 和 图 8.4 所 示 。 


卷 积 特征 
L—] 
x=4 
{12,3} 


卷 积 核 。 |g(3)|e(2)|e(1) 




















输入 向 量 ADOOS 














图 8.3 卷 积 操作 (1) 
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ewm [] eme P] 
+ x=5 x-6 Y 
i-023] i-(123) 


ERBE oleo g) TE &3)| Q)| 201) 


nik 33" 


输入 向 量 ADADA fA 输入 向 量 foo A3) fa) ^5] 







































































图 8.4 卷 积 操作 (2)、(3) 


卷 积 核 从 输入 向 量 左边 开始 扫描 , 权 值 在 第 一 个 位 置 分 别 与 对 应 输入 值 相 乘 求 
和 ,得 到 卷 积 特征 值 向 量 的 第 一 个 值 , 接 下 来 ,移动 一 个 步 长 ,到 达 第 二 个 位 置 , 进 行 相 
同 操作 ; 以 此 类 推 。 

这 样 就 实现 了 从 前 一 层 的 输入 向 量 提取 特征 到 后 一 层 的 操作 ,这 种 操作 具有 局 部 
连接 (每 个 节点 只 和 与 其 相 邻 的 三 个 节点 有 连接 ) 以 及 参数 共享 (所 用 的 卷 积 核 为 同一 
个 向 量 ) 的 特征 。 类 似 地 ,我 们 可 以 拓展 到 二 维 (如 图 8. 5 所 示 ) ,以 及 更 高 维度 的 卷 积 
操作 。 





图 8.5 二 维 卷 积 操作 
《图 片 来 源 : http://colah. github. io/posts/2014-07-Understanding-Convolutions/) 


多 个 卷 积 核 : 利用 一 个 卷 积 核 进行 卷 积 抽取 特征 是 不 充分 的 ,因此 在 实践 中 , 通 
常 使 用 多 个 卷 积 核 , 将 所 得 不 同 卷 积 核 卷 积 所 得 特征 张 量 沿 第 一 维 拼接 形成 更 高 一 个 
维度 的 特征 张 量 。 

多 通道 卷 积 : 在 处 理 彩色 图 像 时 ,输入 的 图 像 有 RGB 三 个 通道 的 数值 ,这 个 时 候 
分 别 使 用 不 同 的 卷 积 核对 每 一 个 通道 进行 卷 积 ,然后 使 用 线性 或 非 线性 的 激活 函数 将 
相同 位 置 的 卷 积 特征 合并 为 一 个 。 

边界 填充 : 注意 到 在 图 8.4 中 , 卷 积 核 的 中 心 g(2) 并 不 是 从 边界 /(1) 上 开始 扫 
描 的。 以 一 维 卷 积 为 例 , 大 小 为 m 的 卷 积 核 在 大 小 为 n 的 输入 向 量 上 进行 操作 后 所 
得 到 的 卷 积 特征 向 量 大 小 会 缩小 为 n 一 m 十 1。 当 卷 积 层 数 增加 的 时 候 , 特 征 向 量 大 小 
就 会 以 m —1 的 速度 拥 缩 ,这 使 得 更 深 的 神经 网 络 变 得 不 可 能 ,因为 在 笋 加 到 第 
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| 二 | 个 郑 积 层 之 后 卷 积 特征 将 吉 缩 为 标量 。 为 了 解决 这 一 问题 ,人 们 通常 采用 在 


输入 张 量 的 边界 上 填充 0 的 方式 ,使 得 卷 积 核 的 中 心 可 以 从 边界 上 开始 扫描 ,从 而 保 
持 卷 积 操作 输入 张 量 和 输出 张 量 的 大 小 不 变 。 


8.2.3 池 化 层 


池 化 (Pooling, 如 图 8. 6 所 示 ) 的 目的 是 降低 特征 空间 的 维度 ,只 抽取 局 部 最 显著 
的 特征 ,同时 这 些 特征 出 现 的 具体 位 置 也 被 忽略 。 这 样 做 是 符合 直觉 的 : 以 图 像 处 理 
为 例 , 通 常 关注 的 是 一 个 特征 是 否 出 现 , 而 不 太 关心 它们 出 现在 哪里 ,这 被 称 为 图 像 的 
静态 性 。 通 过 池 化 降低 空间 维度 的 做 法 不 但 降低 了 计算 开销 ,还 使 得 卷 积 神经 网 络 对 
于 噪声 具有 健壮 性 。 


卷 积 特征 池 化 特征 


池 化 特征 











图 8.6 池 化 


常见 的 池 化 类 型 有 最 大 池 化 ,平均 池 化 等 。 最 大 池 化 是 指 在 池 化 区 域 中 , 取 卷 积 
特征 值 最 大 的 作为 所 得 池 化 特征 值 ; 平均 池 化 则 是 指 在 池 化 区 域 中 取 所 有 卷 积 特征 
值 的 平均 作为 池 化 特征 值 。 如 图 8. 6 所 示 , 在 二 维 的 卷 积 操作 之 后 得 到 一 个 20X20 
的 卷 积 特征 矩阵 , 池 化 区 域 大 小 为 10X10, 这 样 得 到 的 就 是 一 个 4X4 的 池 化 特征 矩 
阵 。 需 要 注意 的 是 ,与 卷 积 核 在 重 肆 的 区 域 进行 卷 积 操作 不 同 , 池 化 区 域 是 互 不 重 
RH. 


8.2.4 卷 积 神经 网 络 
一 般 来 说 , 卷 积 神经 网 络 (Convolutional Neural Network，CNN) 由 一 个 卷 积 层 、 
一 个 池 化 层 一 个 非 线性 激活 函数 层 组 成 (如 图 8. 7 所 示 ) 。 


在 图 像 分 类 中 表现 良好 的 深度 神经 网 络 往往 由 许多 “ 卷 积 层 十 池 化 层 ” 的 组 合 堆 
全 而 成 ,通常 多 达 数 十 乃至 上 百 层 ( 如 图 8. 8 所 示 )。 
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8.8 深层 卷 积 神经 网 络 


8.3 循环 神经 网 络 


迄今 为 止 , 本 书 中 介绍 的 所 有 神经 网 络 都 有 固定 大 小 的 输入 ,以 及 固定 大 小 的 输 
出 。 这 在 传统 的 分 类 问题 上 (特征 向 量 维度 固定 ) 以 及 图 像 处 理 上 (固定 大 小 的 图 像 ) 
可 以 满足 人 们 的 需求 。 但 是 在 另 一 些 问题 中 ,需要 处 理 的 对 象 是 随时 间 变 化 的 ,可 以 
表示 为 沿 时 间 线 展开 的 一 个 序列 ; 如 果 这 个 序列 是 变 长 的 ,那么 传统 上 固定 输入 的 神 
经 网 络 就 无 能 为 力 了 。 这 样 的 问题 非常 常见 : 例如 ,在 自然 语言 处 理 中 ,句子 是 词 的 
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序列 ,而 句子 的 长 度 是 不 确定 的 ; 再 例如 语音 ,也 可 以 视 为 一 个 变 长 序列 的 问题 。 

为 了 处 理 这 种 变 长 序列 的 问题 ,神经 网 络 就 必须 采取 一 种 适合 的 架构 ,使 得 输入 
序列 和 输出 序列 的 长 度 可 以 动态 地 变化 ,而 又 不 改变 神经 网 络 中 参数 的 个 数 ( 否 则 训 
练 无 法 进行 )。 基 于 参数 共享 的 思想 ,我 们 可 以 在 时 间 线 上 共享 参数 。 在 这 里 ,时 间 是 
一 个 抽象 的 概念 ,通常 表示 为 时 步 (Timestep); 例如 , 若 一 个 以 单词 为 单位 的 句子 是 
一 个 时 间 序 列 ,那么 句子 中 第 一 个 单词 就 是 第 一 个 时 步 ,第 二 个 单词 就 是 第 二 个 时 步 ， 
以 此 类 推 。 共 享 参数 的 作用 不 仅 在 于 使 得 输入 长 度 可 以 动态 变化 ,还 在 于 将 一 个 序列 
各 时 步 的 信息 关联 起 来 , 沿 时 间 线 向 前 传递 。 


8.3.1 循环 单元 


沿 时 间 线 共享 参数 的 一 个 很 有 效 的 方式 就 是 使 用 循环 ,使 得 时 间 线 递归 地 展开 。 
形式 化 地 可 以 表示 如 下 : 

h = f(ha;8) 

Hp, ACO HARAT Recurrent Unit) ,6 为 参数 。 为 了 在 循环 的 每 一 时 步 都 输 
和信 待 处 理 序列 中 的 一 个 元 素 ,对 循环 单元 做 如 下 更 改 ; 

li, = Fisha 

h, 一般 不 直接 作为 网 络 的 输出 ,而 是 作为 隐藏 层 的 节点 ,被 称 为 隐 单 元 。 隐 单元 
在 时 步 : 的 具体 取 值 成 为 在 时 步 : 的 隐 状 态 。 隐 状态 通过 线性 或 非 线性 的 变换 生成 
同样 为 长 度 可 变 的 输出 序列 ， 

y» = g(h) 

这 样 的 具有 循环 单元 的 神经 网 络 被 称 为 循环 神经 网 络 (Recurrent Neural 
Network, RNN), 。 将 以 上 计算 步骤 画 成 计算 图 (如 图 8. 9 所 示 ) ,可 以 看 到 ,隐藏 层 节 
点 有 一 条 指向 自己 的 箭头 ,代表 循环 单元 。 

将 图 8.9 的 循环 展开 (如 图 8. 10 所 示 ) ,可 以 清楚 地 看 到 循环 神经 网 络 是 如 何以 
一 个 变 长 的 序列 as ,x;，… ,zx, 为 输入 ,并 输出 一 个 变 长 的 序列 yi ,ys tese 


输出 层 @) 输出 层 O) @) = (9) 
— e( ) ME 的 -的 -= -= 一 -的 
MAR ) AB C) O s © 
图 8.9 循环 神经 网 络 8.10 循环 神经 网 络 展开 形式 


8.3.2 通过 时 间 后 向 传播 
在 8.3.1 节 中 ,循环 单元 F(.) 可 以 采取 许多 形式 。 其 中 最 简单 的 形式 就 是 使 用 
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线性 变换 : 
h, = War T Wuhan +b 

FOP Wu EAA x 到 隐 状 态 h, KAU HE PE, Waa 是 从 前 一 个 时 步 的 隐 状 态 
hh,-1 到 当前 时 步 隐 状 态 h, 的 权 值 矩 阵 , 是 偏 置 。 采 用 这 种 形式 循环 单元 的 循环 神经 
网 络 被 称 为 平凡 循环 神经 网 络 (Vanilla RNN) 。 

在 实际 中 很 少 使 用 平凡 循环 神经 网 络 , 这 是 由 于 它 在 误差 后 向 传播 的 时 候 会 出 现 
梯度 消失 或 梯度 爆炸 的 问题 。 为 了 理解 什么 是 梯度 消失 和 梯度 爆炸 ,我们 先 来 看 一 下 
平凡 循环 神经 网 络 的 误差 后 向 传播 过 程 。 

在 图 8. 11 中 ,E, 表示 时 步 + 的 输出 y, 以 某 种 损失 函数 计算 出 来 的 误差 ,s, 表示 
WEE c 的 隐 状 态 。 若 需要 计算 E, 对 Ws 的 梯度 ,需要 对 每 一 次 循环 展开 时 产生 的 隐 状 
态 应 用 链 式 法 则 ,并 把 这 些 偏 导数 逐步 相 乘 起 来 ,这 个 过 程 (如 图 8. 11 所 示 ) 被 称 为 通 
过 时 间 后 向 传播 (Back Propagation Through Time,， BPTT)。 形 式 化 地 ,E, 对 Ws 的 
梯度 计算 如 下 : 








JE, NOE, ay, (T Asin 2s, 
9 Wi, k=0 dy, ds, k ds; 9 Wi, 
Ey E, E E; E, 
3E, 
3 a as 25 
(rS GHG) 
Xo xj X x Xi 


图 8.11 通过 时 间 后 向 传播 (BPTT) 
(图 片 来 源 : http://www. wildml. com/2015/10/recurrent-neural-networks- 


tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/) 


我 们 注意 到 式 中 有 一 项 连 乘 , 这 意味 着 当 序列 较 长 的 时 候 相 乘 的 偏 导数 个 数 将 变 
得 非常 多 。 有 些 时 候 ,一 旦 所 有 的 偏 导数 都 小 于 1 ,那么 相 乘 之 后 梯度 将 会 趋向 0, 这 
被 称 为 梯度 消失 (Vanishing Gradient); 一 旦 所 有 偏 导数 都 大 于 1 ,那么 相 乘 之 后 梯度 
将 会 趋向 无 穷 ,这 被 称 为 梯度 爆炸 (Exploding Gradient). 

梯度 消失 与 梯度 爆炸 的 问题 解决 一 般 有 两 类 办 法 : 一 是 改进 优化 (Optimization ) 
过 程 ,如 引入 缩放 梯度 (Clipping Gradient) ,属于 优化 问题 ,本 章 不 予 讨论 ; 二 是 使 用 
带 有 门限 的 循环 单元 ,在 8. 3. 3 节 中 将 介绍 这 种 方法 。 


8.3.3 带 有 门限 的 循环 单元 
在 循环 单元 中 引入 门限 ,除了 解决 梯度 消失 和 梯度 爆炸 的 问题 以 外 ,最 重要 的 原 


因 是 为 了 解决 长 距离 信息 传递 的 问题 。 设 想 要 把 一 个 句子 编码 到 循环 神经 网 络 的 最 
后 一 个 隐 状 态 里 ,如 果 没 有 特别 的 机 制 , 离 句 末 越 远 的 单词 信息 损失 一 定 是 最 大 的 。 
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为 了 保留 必要 的 信息 ,可 以 在 循环 神经 网 络 中 引入 门限 。 门 限 相当 于 一 种 可 变 的 短路 
机 制 ,使 得 有 用 的 信息 可 以 “ 跳 过 ”一 些 时 步 , 直 接 传 到 后 面 的 隐 状 态 ; 同时 由 于 这 种 
短路 机 制 的 存在 ,使 得 误差 后 向 传播 的 时 候 得 以 直接 通过 短路 传 回来 ,避免 了 在 传播 
过 程 中 爆炸 或 消失 。 

LSTM 最 早出 现 的 门限 机 制 是 Hochreiter 等 人 于 1997 年 提出 的 长 短 时 记忆 
(Long Short-Term Memory. LSTM). LSTM 中 显 式 地 在 每 一 时 步 上 引入 了 记忆 ec，,， 
并 使 用 输入 门限 i, 遗 忘 门限 f, 输 出 门限 o 来 控制 信息 的 传递 。LSTM MWET h= 
LSTM,-5 c1 52,50 ) 表 示 如 下 : 

h, = o@tanh(c; ) 
c, = iOg-- f Oca 
其 中 ,@ 表 示 逐 元 素 相 乘 ,输入 门限 i BESTT PR 输出 门限 o, 候 选 记忆 g 分 
别 为 
i 一 0( 了 十 Urr) 
f =o(Weh,, +Urpz,) 
o = 6(Woh,-, +Uor,) 
g = tanh(Weh, 4-Ucz,) 

直觉 上 ,这些 门 限 可 以 控制 向 新 的 隐 状 态 中 添加 多 少 新 的 信息 ,以 及 遗忘 多 少 旧 
隐 状 态 的 信息 ,使 得 重要 的 信息 得 以 传播 到 最 后 一 个 隐 状 态 。 

GRU: Cho 等 人 在 2014 年 提出 了 一 种 新 的 循环 单元 ,其 思想 是 不 再 显 式 地 保留 
一 个 记忆 ,而 是 使 用 线性 插值 的 办 法 自动 调整 添加 多 少 新 信息 和 遗忘 多 少 旧 信 息 。 这 
种 循环 单元 称 为 门限 循环 单元 (Gated Recurrent Unit, GRU) +h, =GRU(h.-1 2,50) 
表示 如 下 : 


h = (1—%)Oh +20 h, 


其 中 ,更 新 门限 =, 和 候选 状态 人 i 的 计算 如 下 
zı = o(Wzx, Uzh, i ) 
b, =tanhWae, EU HO, a2 
其 中 ,r 为 重 置 门限 ,计算 如 下 : 
r = o(Wrx, +Uph,-) 
GRU 达到 了 与 LSTM 类 似 的 效果 ,但 是 由 于 不 需要 保存 记忆 ,因此 稍微 节省 内 
存 空 间 , 但 总 的 来 说 GRU 与 LSTM 在 实践 中 并 无 实质 性 差别 。 


8.4 MATLAB 深度 学 习 工 具 箱 简介 


MATLAB 自 带 深度 学 习 工 具 箱 ,同时 也 可 以 使 用 matconvnet 等 第 三 方 库 , 导 人 
caffee 生成 的 网 络 。MATLAB 自 带 深度 学 习 工 具 箱 主要 包括 卷 积 神经 网 络 和 自 编码 
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机 两 个 算法 。 下 面 以 利用 CNN 对 CIFAR-10 图 片 分 类 数据 集 的 处 理 为 例 , 简 介 其 使 
用 方法 。 

CIFAR-10 数据 集 是 多 伦 多 大 学 整理 的 ,包含 60 000 张 图 片 样本 (如 图 8. 12 所 
示 ) ,每 张 图 片 为 32X 32 彩色 (RGB3 通道 ) , 共 10 类 。 数 据 集 下 载 地 址 为 http:// 


www. cs, toronto, edu/ — kriz/cifar. html. 


xA Lum 
5M Bx 





automobile truck 


图 8.12 CIFAR-10 数据 集 示例 





目标 是 构建 一 个 简单 的 卷 积 神经 网 络 对 其 进行 分 类 。 

数据 已 经 被 划分 为 50 000 : 10 000 的 训练 数据 与 测试 数据 ,简单 起 见 这 里 不 再 划 
分 验证 数据 集 。 由 于 网 站 上 给 出 的 CIFAR-10 数据 为 向 量 形式 ,因此 先 把 它 转变 为 
32X32X3 的 RGB 三 通道 彩色 图 片 ,并 随机 挑选 一 些 数 据 展 示 出 来 。 

HEP REM CNN 的 各 层 , 作 为 最 简单 的 多 分 类 CNN ,设置 其 共有 7 层 ,分 别 是 图 
像 输 入 层 ( 设 置 输 入 图 像 的 大 小 ) , 卷 积 层 (设置 CNN 的 filter 的 大 小 和 数量 ) ,relu € 
活 层 ,pooling 层 ( 可 设置 矩形 pooling 区 域 的 大 小 ), 全 连接 层 ( 设 置 分 类 数 ,这 
是 10) ,softmax 层 , 分 类 输出 层 

接 下 来 设置 训练 参数 ,采用 sgdm( 带 有 动量 的 随机 梯度 下 降 ) ,最 大 和 迭代 次 数 30。 

注意 迭代 次 数 过 小 可 能 学 习 效 果 不 好 。 初 始 学 习 速率 设置 为 0.000 03 ,过 大 可 能 
无 法 收敛 ,过 小 收敛 太 慢 。 
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开始 训练 ,并 显示 出 训练 过 程 ,如 图 8. 13 Bron o 


Training on single GPU. 






















| = — 
| Epoch | Iteration Time Elapsed | 

| | (seconds) | 

| 

| 1] 0.04 | | 3 05 
| 1l 1.51 | | 3.00e-05 
| 1| 100 2.82 | 2.0616 22.665 | 3.00e-05 
| 1| 150 4.17 | 1.8474 37.50% | 3.00e-05 
| 1| 200 5.70 | 1.6823 39.84* | 3.00e-05 
| 1l 250 7.38 | 1.7798 35.94% | 3.00c-05 
| x] 300 9.12 | 1.6411 44.53% | 3.00e-05 
| 1| 350 11.29 | 1.7545 34.38% | 3.00e-05 
| 2| 400 13.41 | 1.7536 34.38% | 3.00e-05 
| 2| 450 15.44 | 1.5718 51.56% | 3.00e-05 
| 2| 500 17.42 | 1.4429 51.56% | 3.00e-05 
| 2| 550 19.36 | 1.5026 49.22% | 3.00e-05 
| 2| 600 21.29 | 1.4349 49.22% | 3.00e-05 
| 2l 650 23.19 | 1.4968 51.56% | 3.00e-05 
| 2 | 700 25.09 | 1.5671 46.88% | 3.00e-05 
| 2 | 750 26.99 | 1.4249 52.34% | 3.00e-05 
| 3| 800 28.89 | 1.4682 43.75% | 3.00e-05 
| 3 | 850 30.79 | 1.3192 53.91% | 3.00e-05 
| 3 | 900 32.78 | 1.3900 57.03% | 3.00e-05 
| 3| 950 34.60 | 1.4837 | 53.12% | 3.00e-05 


图 8.13 训练 过 程 


注意 ,在 利用 深度 学 习 方法 进行 图 片 分 类 时 ,由 于 一 般 模 型 需要 大 量 数据 进行 训 
练 ,此 时 最 好 使 用 GPU 来 加 速 训练 过 程 。 因 为 GPU 比 CPU 更 加 适合 进行 矩阵 运 
算 ,MATLAB 或 TensorFlow 等 深度 学 习 框架 在 GPU 上 将 会 速度 大 幅 提升 。 因 此 最 
好 在 符合 要 求 的 硬件 设备 上 ,根据 MATLAB 或 TensorFlow 的 介绍 安装 nVIDIA 
CUDA,cuDNN。 

下 面 以 在 MAC OS X 上 安装 为 例 。 

请 先 确保 硬件 设备 (如 nVIDIA GT 750M,nVIDIA TITAN X) 符 合 要 求 , 罗 列 在 
CUDA 支持 的 显卡 列表 中 (https://developer. nvidia. com/cuda-gpus)。 

安装 CUDA Toolkit 8. 0(http://docs. nvidia. com/cuda/cuda-installation-guide- 
mac-os-x/) ,为 此 ,可 能 需要 在 MAC APP Store 中 安装 Xcode。 同 时 不 要 忘记 在 环境 
变量 中 设置 正确 的 路 径 。 

具体 操作 方式 为 : 在 terminal 中 输入 


vim —/.bash profile 
然后 添加 : 


PATH = "/Library/Frameworks/Python. framework/Versions/3. 6/bin: $ {PATH}" 

export PATH 

export PATH = /Developer/NVIDIA/CUDA - 8. 0/bin $ (PATH: + : $ {PATH}} 

export DYLD LIBRARY PATH- /usr/local/cuda/lib:/usr/local/cuda/extras/CUPTI/lib 
export LD LIBRARY PATH= $ DYLD LIBRARY PATH 


export PATH = $ DYLD LIBRARY PATH: $ PATH 
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安装 The nVIDIA CUDA® Deep Neural Network library (cuDNN) (https:// 
developer. nvidia. com/cudnn) , cuDNN 是 英 伟 达 为 深度 神经 网 络 加 速 的 库 , 是 英 伟 
达 深度 学 习 SDK 的 一 部 分 。 

下 面 给 出 代码 。 


% * Create Simple Deep Learning Network for Classification 


close all; clear; clc; 


% % Load and Explore the Image Data 

batches meta = importdata( batches. meta. mat') ; 

data batch 1 = importdata('data batch 1.mat'); 

data batch 2 = importdata('data batch 2.mat'); 

data batch 3 = importdata('data batch 3.mat'); 

data batch 4 = importdata('data batch 4.mat'); 

data batch 5 = importdata('data batch 5.mat'); 

trainVector = [data batch 1.data; data batch 2.data; data batch 3.data; data batch 
4.data; data batch 5.data]; 

trainLabels = [data batch 1.labels; data batch 2. labels; data batch 3.labels; data | 
batch 4.labels; data batch 5.labels] * 1; 


trainingNum = size(trainLabels, 1); 

categoryNum - length(unique(trainLabels)); 

pixel - 32; 

channel = 3; 

trainImage = reshape(trainVector', [pixel pixel channel trainingNum]); 
trainImage = permute(trainImage, [2 1 3 4]); 


test batch = importdata('test batch.mat'); 

testVector = test batch.data; 

testLabels - test batch.labels * 1; 

testNum = size(testLabels, 1); 

testImage = reshape(testVector', [pixel pixel channel testNum]); 
testImage = permute(testImage, [2 1 3 4]); 


clear data batch 1 data batch 2 data batch 3 data batch 4 data batch 5 trainVector 
test batch testVector; 


figure; 
perm = randperm(trainingNum, 20); 
fori - 1:20 
subplot(4,5,i); 
tmpImage = reshape(trainlmage(:, :, :, perm(i)), [pixel pixel channel]); 
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imshow( tmpImage); 
title(batches meta(trainLabels(perm(i)))); 


end 


figure; 
perm = randperm(testNum, 20); 
fori - 1:20 
subplot(4,5, i); 
tmpImage = reshape(testImage(:, :, :, perm(i)), [pixel pixel channel]); 
imshow(tmpImage) ; 
title(batches_meta(testLabels(perm(i)))); 


end 


% % Define the Network Layers 

layers = [ imageInputLayer([pixel pixel channel]) 
convolution2dLayer(5, 20) 
reluLayer 
maxPool ing2dLayer(4, 'Stride', 4) 


fullyConnectedLayer(categoryNum) 
softmaxLayer 
classificationLayer()]; 


% * Specify the Training Options 
options = trainingOptions( 'sgdm', 'MaxEpochs', 30, ... 
'InitialLearnRate',0.00003) ; 


% * Train the Network Using Training Data 
convnet = trainNetwork(trainImage, categorical(trainLabels), layers, options); 


% % Classify the Images in the Test Data and Compute Accuracy 
YTest = classify(convnet, testImage) ; 


TTest = testLabels; 


accuracy = sum(YTest == categorical(TTest) ) /numel(TTest) 


YTest = classify(convnet, trainImage) ; 
TTest = trainLabels; 


accuracy = sum(YTest == categorical(TTest) )/numel(TTest) 
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8.5 利用 Theano 搭建 和 训练 神经 网 络 


8.5.1 Theano 简介 


Theano 是 一 个 可 以 定义 、 优 化 和 计算 涉及 多 维 数组 的 数学 表达 式 的 Python FE, 
它 可 以 被 用 于 搭建 和 训练 神经 网 络 ,尤其 是 在 学 术 研究 中 使 用 更 多 。 

从 本 质 上 来 说 ,Theano 是 一 个 线性 代数 操作 的 编译 器 。 它 能 与 NumPy 很 好 地 
整合 ,这 使 得 编程 者 更 加 容易 操作 张 量 。 实 际 上 ,熟悉 NumPy 的 用 户 会 发 现 它 的 许 
多 函数 操作 与 NumPy 中 的 函数 有 着 相同 或 相似 的 名 字 与 功能 ; 更 重要 的 是 , 它 可 以 
对 符号 变量 自动 求 微分 。 它 把 Python 定义 计算 图 编译 成 C 代码 , 它 还 支持 在 GPU 
上 运行 ,因此 对 于 大 型 的 张 量 运算 , 它 的 速度 非常 快 。 由 于 以 上 的 这 些 优点 ,人 们 常常 
使 用 它 来 开发 深度 学 习 的 项 目 , 尽 管 它 本 身 并 不 是 一 个 深度 学 习 的 库 。 

Theano 的 安装 非常 简单 ,只 需要 一 句 命令 ， 

pip install Theano 

剩 下 的 工作 就 是 配置 GPU T. 


详细 安装 教程 见 http: //deeplearning. net/software/theano/install. html 在 此 不 
AGRE, AEWA TE Windows 系统 上 做 安装 Theano 的 尝试 。 


8.5.2 Theano 的 基本 使 用 


几乎 所 有 Theano 的 初学 者 都 会 经 历 一 个 不 适应 Theano 工作 方式 的 过 程 。 这 是 
因为 人 们 接触 到 的 几乎 所 有 主流 编程 语言 都 是 “所 见 即 所 得 ”, 按 照 其 语法 可 以 非常 容 
易 解 释 某 个 代码 片段 的 行为 。 然 而 Theano 并 不 是 , 它 的 运行 分 为 两 个 阶段 : 第 一 , 编 
译 建 图 ; 第 二 ,执行 实际 运算 。 以 下 举 一 个 官方 文档 中 的 例子 。 

进入 Python 交互 式 界面 。 首 先 需 要 导入 依赖 库 ,Theano 及 其 所 依赖 的 NumPy: 


>>> import numpy 


>>> import theano. tensor as T 
接 下 来 定义 一 个 计算 图 {。 我 们 先 定 义 两 个 标量 符号 变量 x 和 y: 


x = T.dscalar('x') 
>>> y = T.dscalar('y') 


然后 定义 符号 变量 z 为 x 和 y 的 相 加 : 


>>z=x+y 
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计算 图 中 所 有 节点 都 定义 好 之 后 ,创建 一 个 可 调用 对 象 f, 指 定 该 计算 图 的 入 口 
节点 为 x 和 yy, 出 口 节点 为 z。 注 意 ,在 整个 计算 图 的 数据 流 中 ,出 口 节点 数据 来 源 必 
须 全 部 可 以 追溯 到 入 口 节点 ,并 且 中 间 每 一 步 计算 都 是 可 以 求 微分 的 ; 入 口 节点 的 数 
据 必 须 全 部 流 到 出 口 节 点 处 ,否则 会 报错 ,除非 通过 THEANO_FLAGS 或 向 theano. 
function 传 参 的 形式 将 on_unused_input 设置 为 warn 或 ignore。 


>>> f = theano.function([x, y], z) 


以 上 完成 了 名 称 为 的 计算 图 的 定义 。 这 个 计算 图 的 编译 将 在 调用 f 的 时 候 
fi: 


& 


>>> £(2, 3) 

array(5.0) 

以 上 是 一 个 最 基础 的 例子 。 

神经 网 络 本 身 就 是 一 个 可 以 由 计算 图 表达 的 复杂 函数 ,可 以 以 类 似 的 方式 定义 这 
样 一 个 计算 图 {来 表示 任意 的 神经 网 络 。 只 不 过 神经 网 络 是 带 有 参数 的 函数 ,训练 神 
经 网 络 的 过 程 中 需要 更 新 参数 。 但 这 些 区 别 都 不 影响 神经 网 络 作 为 一 个 函数 的 本 质 。 


8.5.3 搭建 训练 神经 网 络 的 项 目 


根据 笔者 的 习惯 ,一 个 深度 学 习 项 目的 训练 代码 至 少 包含 以 下 部 分 。 
CD 数据 预 处 理 模块 ; 

(2) 数据 准备 模块 ; 

(3) 工具 函数 ; 

(4) 神经 网 络 中 各 组 件 ; 

(5) 神经 网 络 模型 ; 

(6) 参数 优化 模块 

(7) 训练 过 程 定义 ; 

(8) 启动 脚本 。 

下 面 结 合 代码 给 予 简要 介绍 。 


1. 数据 预 处 理 模块 preprocess. py 


以 自然 语言 处 理 为 例 , 语 料 一 般 是 以 文本 的 形式 出 现 , 需 要 将 文本 文件 读 入 ,处 理 
成 二 进 制 文件 ,以 方便 训练 中 数据 的 读 取 。 

假设 txt_file 为 储存 文本 形式 语 料 文件 名 的 字符 串 变 量 ,corpus_file 为 储存 二 进 
制 形式 语 料 文件 名 的 字符 串 变量 。 

首先 导入 必要 的 库 : 


import cPickle as pkl 
from collections import Counter 
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建立 字典 : 
word freq = Counter([ word for word in open(txt file, 'r').read().strip().split() ]) 
i2w list = ['«null»', '«unk»'] 

* list( dict(word freq.most common(vocab size- 2)).keys() ) 


w2i dict = dict( [ (i2w list[i], i) for i in range(len(i2w_list)) ] ) 
将 文本 形式 的 语 料 转换 为 词 索引 形式 并 输出 二 进 制 文件 : 
corpus = [ [ w2i dict[word] if w2i dict.has key(word) else 
w2i dict['«unk»'] for word in line. strip().split() ] 
for line in open(txt file, 'r').readlines() ] 
pkl.dump(corpus, open(corpus file, 'wb')) 


2. 数据 准备 模块 data. py 


在 训练 中 ,我 们 需要 不 断 地 喂 给 神经 网 络 训练 样 例 ,在 遇 到 特定 情况 的 时 候 还 需 
要 保存 当前 训练 进度 和 恢复 训练 进度 。 因 此 我 们 定义 一 个 Dataset 类 来 做 这 些 事情 。 

它 应 当 至 少 包含 以 下 两 个 核心 方法 。 

d) init, O : 用 于 读 取 包含 训练 数据 的 二 进 制 文件 ,构建 Dataset 类 实例 。 

(2) next): 用 于 读 取 下 一 个 或 下 一 批 训练 样 例 , 进 行 补 零 .构造 mask 等 操作 ， 
以 使 得 训练 数据 的 格式 符合 神经 网 络 的 输入 。 


3. THX utils. py 


有 些小 型 的 操作 ,常常 会 用 到 , 若 写 在 模型 中 ,不仅 宛 长 麻烦 ,而 且 不 优雅 ,影响 阅 
读 与 维护 。 下 面 举 三 个 例子 (首先 需要 导入 numpy FÉ: import numpy as np). 
(1) 参数 的 声明 与 初始 化 。 例 如 ,权重 矩阵 : 


def init weight(size, name, scale- 0.01): 
W = scale* np. random. randn( * size). astype( 'float32') 


return theano. shared(W, name = name) 


(2) 梯度 截断 : 


def clip(grads，threshold，square = True) : 
grads norm2 = sum(TT.sum(g** 2) for g in grads) 
if square: 
grads norm2 = TT.sqrt(grads norm2) 
grads clip = [ TT.switch( TT. ge(grads norm2, threshold), 
g/grads norm2 * threshold, g ) for g in grads] 
return grads clip, grads norm2 


(3) JB Pil ice: — P HERE AES oP. 3x RETE GRU/LSTM 中 ,加 速 门限 的 
权 值 矩阵 与 输入 张 量 相 乘 的 运算 时 非常 有 用 。 
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def split( x, n): 
# only support 3d and 2d tensors 
input size = x.shape[ - 1] 
output size = input size/n 
output - [] 
if x.ndim -- 
for i in range(n): 
output.append( x[:,:,i* output size:(i* 1) * output size]) 
return output 
else: 
for i in range(n): 
output.append( x[:,i* output size:(i*1) * output size]) 


return output 


4. 神经 网 络 中 各 组 件 modules. py 


Theano 中 关于 符号 变量 的 运算 并 不 自 带 参数 , 且 除 了 基本 的 加 减 乘除 以 外 ,我 们 
需要 更 多 复杂 的 带 参数 的 操作 和 运算 ,为 了 方便 参数 的 设置 与 管理 ,需要 定义 一 些 基 
本 模块 。 

首先 还 是 需要 导入 相关 库 : 


import numpy as np 
import theano 
import theano, tensor as TT 


定义 一 个 所 有 组 件 的 父 类 : 


class Module(object) : 
def init (self, name- None): 
self.name - name 


self.params = [] 
最 常用 的 操作 就 是 一 个 张 量 与 权 值 矩 阵 的 相 乘 , 即 线性 变换 : 


class Linear(Module) : 
def init (self,input dim,output dim,name,use bias = True): 


super(Linear, self). init () 
self.name = name 
self.use_bias = use_bias 
self.W = init weight((input dim,output dim), name = self. name + ' W') 
self.params += [self.W] 
if self. use_bias: 
self.b = init_bias(output_dim, name = name + ' b') 
self. params += [self.b] 
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def call (self, input): 
# 实现 y=xx*WH+b 
output = TT.dot(_input, self. W) 
if self.use bias: 
output += self.b 


return output 
GRU 门限 循环 单元 的 实现 : 
class UniGruEncoder(Module) : 
def init (self, embedding dim, hidden dim, name): 
super(UniGruEncoder, self). init () 


self.name = name 
self. hidden dim = hidden dim 


self.W hzr = Linear(embedding dim, 3 * hidden dim, name = self. name + ' W hzr') 
self. params += self.W_hzr. params 


self.U zr = Linear(hidden_dim, 2 * hidden dim, 
name = self. name + ' U zr', use_bias = False) 
self. params += self.U_zr. params 
self.U_h = Linear(hidden_dim, hidden_dim, 
name = self. name + ' U h', use bias = False) 
self.params *- self.U h.params 
def step(self, weighted inputs, prev h, mask = None): 
h input, z input, r input = split(weighted inputs, 3) 


z hidden, r hidden - split(self.U zr(prev h), 2) 


z 7 TT.nnet.sigmoid(z input * z hidden) 
TT.nnet.sigmoid(r input + r hidden) 


4 
" 


h hidden = self.U h(r* prev h) 


proposed h - TT.tanh(h input * h hidden) 


h = (1.-z) * prev h + z * proposed h 


if mask is not None: 
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mask = mask.dimshuffle(0, 'x') 

return mask * h + (1. - mask) * prev h 
else: 

return h 


def call (self, inputs, sent len, init state = None, 
batch size- 1, mask = None): 


init state = TT.zeros((batch size, self.hidden dim), dtype = 'f1oat32') 


weighted inputs = self.W hzr(inputs).reshape( 
(sent len, batch size, 3 * self.hidden dim) ) 


if mask is not None: 

sequences = [weighted inputs, mask] 

fn = lambda x, m, h : self.step(x, h, mask- m) 
else: 

sequences = [weighted inputs] 

fn = lambda x, h : self.step(x, h) 


results, updates = theano. scan(fn, 
Sequences = sequences, 
outputs info- [init state]) 
* Theano 中 的 scan 循环 


return results 


其 他 更 加 复杂 的 神经 网 络 组 件 , 均 可 如 此 定义 。 
5. 神经 网 络 模型 model. py 


在 前 面 的 工具 取 数 和 神经 网 络 组 件 都 定义 好 了 之 后 ,现在 可 以 搭建 自己 的 神经 网 
络 模型 了 。 

一 个 模型 需要 加 载 和 保存 ,可 以 将 这 两 个 方法 抽取 出 来 , 写 在 一 个 公共 的 父 
类 里 : 


class Model(object) : 
def init (self, name- None): 
super(Model, self). init () 
self.name - name 


self.params = [] 


def save(self, path): 
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values = {} 

for p in self. params: 
values[p.name] = p.get value() 

np.savez(path, ** values) 


def load(self, path): 
if not os. path. exists(path): 
return 
try: 
values = np. load(path) 
for p in self. params: 
if p.name in values: 
if values[p. name]. shape != p.get value().shape: 
raise IncompatibleParameterShapeError( 
p.name, p.get value().shape, 
values[p. nane]. shape) 
else: 
p.set value(values[p. name]) 
print("Loaded parameter (), shape {} .\n" V 
.format( p. name, values[p. name]. shape )) 
else: 
raise Undef inedParameterError(p. name) 
except UndefinedParameterError, e: 
print e.msg 
sys. exit(1) 
except IncompatibleParameterShapeError, e: 
print e.msg 
sys. exit(1) 


然后 就 可 以 写 自己 的 模型 了 : 


class MyModel (Model) : 


def init (self, paraml, param2, ..., name): 
super(MyModel, self). init () 
self.name - name 
self.paraml = paraml 
self.param2 = param2 
3E uus 


* 实例 化 modules.py 中 定义 的 组 件 


self.encoder = 
BiGruEncoder(src vocab size, src embedding dim, 


src hidden dim, name = self. name + ' encoder') 
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# 将 该 组 件 的 参数 加 入 到 模型 参数 中 
self. params += self.encoder.params 


def TrainingPhase( self) : 


# 输入 节点 的 符号 变量 

self.x = TT.matrix('x', dtype- 'int64') 
self.y = TT.matrix('y', dtype- 'int64') 
self. inputs = [self.x, self. y] 


# 一 系列 操作 
aH o 


# 输出 节点 的 符号 变量 : 通常 是 训练 损失 


self.costs = 8 … 
def TestPhase(self): 


# 测试 阶段 可 能 与 训练 不 同 
# 例如 ,训练 阶段 负责 最 优化 参数 
H 而 测试 阶段 针对 某 个 特定 问题 的 评测 指标 搜索 问题 的 局 部 最 优 解 


6. 参数 优化 模块 optim. py 


训练 神经 网 络 的 过 程 ,就 是 通过 最 小 化 训练 样 例 的 训练 损失 来 最 优化 网 络 参数 的 
过 程 。 最 优化 参数 的 方法 可 以 有 很 多 种 ,例如 ,随机 梯度 下 降 及 其 变种 。 
优雅 起 见 ,定义 一 个 所 有 优化 方法 的 父 类 : 
class Optimizer(object) : 
def init (self, name = None): 
self.name = name 
这 里 给 出 两 种 参数 优化 方法 的 实现 。 
带 梯度 截断 的 SGD: 


class SGD(Optimizer) : 
def init (self, inputs, costs, params, learning rate, clipping, name = None): 
self.name - name 


self.params - params 


# init_zeros() 接 受 一 个 形状 ,返回 这 种 形状 的 元 素 全 为 0 的 张 量 


e z 
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# 可 自行 实现 
self.grads = [init zeros(p.get value().shape) for p in params] 


gradients - TT.grad(costs, params) 
grads clip, grads norm = clip(gradients, clipping, square = False) 


grads upd - [(grads, new grads) 
for grads, new grads in zip(self.grads, grads clip)] 


# 更 新 梯度 的 计算 图 

E 与 更 新 参数 分 开 是 为 了 在 更 新 参数 之 前 判断 梯度 是 否 为 正 负 无 穷 大 

self.update grads = theano. function( inputs, [costs, TT. sqrt(grads_norm) ] 
updates = grads_upd) 


lr = np.float32(learning rate) 
delta = [lr * grads for grads in self. grads] 
params upd = [(p, p-d) for p, d in zip(self. params, delta) ] 


# 更 新 参数 的 计算 图 
self. update_params = theano. function([], [], updates = params_upd) 


7. 训练 过 程 定义 train. py 


在 有 了 数据 准备 模块 ,神经 网 络 模型 和 参数 优化 模块 之 后 ,就 可 以 定义 训练 过 
程 了 。 

首先 进行 模型 超 参 数 和 训练 参数 的 设置 ,为 方便 ,还 可 以 有 一 个 专门 的 Config 类 
来 对 这 些 超 参数 进行 控制 ,方便 加 载 。 

然后 构建 数据 类 ,加 载 数据 : 

data = Dataset(data params) 

# 若 要 从 某 个 记录 的 训练 进度 恢复 : 

if data status: 

data.resume status(data status) 


实例 化 模型 : 


mdl = MyModel(model params) 
# 若 要 从 某 个 已 保存 的 模型 恢复 训练 : 
if resume model: 

mdl.load(resume model) 


将 模型 切换 到 训练 阶段 ,调用 计算 图 的 定义 代码 : 
ndl. TrainingPhase() 
这 个 时 候 , 训 练 过 程 中 所 需 的 计算 图 就 被 定义 好 了 。 把 模型 的 输入 节点 mdl. 
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inputs、 输 出 节点 mdl. costs、 模 型 的 参数 mdl. params 传 给 参数 优化 类 ,以 便 构 建 可 调 
用 的 theano. function 对 象 , 也 就 是 参数 优化 模块 中 负责 更 新 梯度 的 self. update _ 
grads 和 负责 更 新 网 络 参 数 的 self. update params: 


trainer = AdaDelta(mdl. inputs, mdl.costs, mdl.params, 
gamma, eps, clipping, name = 'AdaDelta') 


只 有 构建 了 self. update grads 对 象 ,在 神经 网 络 模块 中 TrainingPhase() 所 定义 
的 一 系列 运算 才 会 被 编译 成 计算 图 ; 在 调用 update_grads() 方 法 的 时 候 , 整 个 神经 网 
络 才 会 被 真正 地 计算 ,计算 梯度 的 过 程 也 才 会 进行 。 也 只 有 在 调用 self. update | 
params() 的 时 候 , 误 差 后 向 传播 的 过 程 才 会 进行 ,神经 网 络 的 参数 才 会 真正 地 被 
更 新 。 

接 下 来 定义 一 个 无 限 循环 ,不 断 读 取 下 一 个 训练 样 例 ,计算 并 进行 参数 调整 。 


while True: 
x, x mask, y, y mask = data.next() 
# 检查 样 例 有 效 性 
while x.shape[0] == 0: 
x, x mask, y, y mask = data.next() 
* 前 向 传播 ,计算 梯度 
costs, grads norm = V 
trainer.update grads(x, x mask, y pad, y mask pad) 
# 若 训练 中 出 现 inf 和 nan, 可 以 断定 数据 或 模型 出 现 了 问题 ,中 断 训练 
if np.isinf(costs.mean()) or np. isnan(costs. mean()) : 
mdl.save(checkpoint model) 
sys. exit(1) 
# 后 向 传播 误差 以 更 新 网 络 参 数 
trainer.update params() 


这 样 , 训 练 就 会 无 限 运行 下 去 ,除非 进程 收 到 信号 。 有 些 信 号 是 可 以 捕获 的 ,例如 
SIGINT 和 SIGTERM, 可 以 在 捕获 这 些 停 止 信号 之 后 保存 模型 、 保 存 训练 进度 ,优雅 
地 退出 。 


import signal 


def grace_exit(signum，frame) : 
mdl.save(checkpoint model) 
sys.exit(0) 


# capture signals 
signal.signal(signal.SIGINT, grace exit) 
signal.signal(signal.SIGTERM, grace exit) 
signal.signal(signal.SIGABRT, grace exit) 
signal.signal(signal. SIGFPE, grace exit) 
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signal.signal(signal.SIGILL, grace exit) 
signal.signal(signal.SIGSEGV, grace exit) 


当然 ,如 果 进 程 是 被 SIGKILL 直接 杀 死 ,由 于 SIGKILL 是 无 法 捕获 的 ,训练 的 
进程 不 会 有 机 会 在 终止 之 前 有 机 会 保存 模型 。 


8. 启动 脚本 run. sh 


在 命令 行 直接 启动 训练 train. py 可 能 会 比较 麻烦 ,因为 有 些 环境 变量 需要 在 启动 
时 设置 ,例如 PYTHONPATH, THEANO FLAGS 等 。 另 外 ,我 们 也 希望 训练 、 验 
证 ,测试 有 一 个 统一 的 入 口 ,因此 可 以 写 一 个 Shell 脚本 ,屏蔽 元 长 的 环境 变量 和 
Python 脚本 的 命令 行 参 数 等 细节 ,让 启动 更 加 优雅 。 


#!/bin/sh 
# 指定 程序 运行 的 GPU 编号 或 CPU 
DEVICE = gpu5 
# train 
if [ $1 = "-n"]; then 
PYTHONPATH = ../ THEANO FLAGS = floatX = float32,device= $ DEVICE, lib. cnmem = 0. 2, on 
_unused_input = warn python train. py 
fi 
# validate 
if [ $1 = "-v" ]; then 
PYTHONPATH = ../ THEANO_FLAGS = floatX = float32,device= $ DEVICE, lib. cnmem = 0.2, on 
_unused_input = warn python validate. py 
fi 
# test 
if [ $1 = "-s"]; then 
PYTHONPATH = ../ THEANO FLAGS = floatX = float32,device= $ DEVICE, lib. cnmem = 0. 2, on 
_unused_input = warn python test. py 
fi 


至 此 ,一 个 较为 简洁 的 深度 学 习 项 目 就 完成 了 。 只 需要 在 命令 行 运行 
./run.sh -n 


就 可 以 启动 训练 了 , 按 Ctrl 十 C 组 合 键 会 向 进程 发 送 SIGINT ,使 得 进程 在 模型 保存 后 
退出 。 

如 果 是 在 服务 器 上 ,还 可 以 后 台 运 行 : 

nohup ./run. sh -n & 


这 种 方式 运行 的 进程 在 退出 bash 后 不 会 挂 起 ,可 以 通过 对 该 进程 发 送 
SIGTERM 来 结束 训练 ,使 得 进程 在 模型 保存 后 退出 。 
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习题 


1. 推导 Softmax 的 损失 函数 。 

2. 试 讨论 ,为 什么 深度 学 习 的 一 些 新 技术 ,如 注意 力 机 制 (Attention Mechanism) 、 
生成 对 抗 网 络 (GAN), 总 是 首先 在 计算 机 视觉 领域 出 现 ,而 自然 语言 处 理 后 来 才 
借用 ? 

3. 阅读 经 典 论文 https://arxiv. org/abs/1409. 0473 ,并 用 Theano 实现 之 。 
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9.1 简介 


9.1.1 聚 类 任务 


试想 读者 作为 银行 经 理 , 希 望 将 客户 划分 成 多 个 组 别 ,以 更 好 地 提供 服务 。 读 者 
掌握 客户 的 存款 、 年 收入 、 贷 款 状 况 .购房 状况 ,购车 状况 等 信息 ,如 何 据 此 对 客户 进行 
有 意义 的 划分 ? 

如 果 使 用 逻辑 回归 (Logistic Regression) , BP 神经 网 络 (BP Neural Network) 等 
分 类 算法 ,需要 提供 预先 确定 的 类 别 标签 供 算法 学 习 , 即 “有 监督 学 习 (Supervised 
Learning)”。 但 现在 却 不 太 容 易 自己 定义 “客户 类 型 ”。 

因此 要 借助 “无 监督 学 习 (Unsupervised Learning)” 中 的 聚 类 算法 ,如 下 -均值 
(K-Means) JZ R% (Hierarchical Clustering) ,读者 只 需要 提供 给 它们 没有 手动 标 
记 类 别 的 训练 样本 ,它们 可 以 据 此 学 习 , 并 揭示 数据 内 在 的 联系 、 规 律 ,帮助 读者 进 一 
步 分 析 数 据 。 

聚 类 一 般 追 求 的 是 簇 内 个 体 间距 小 ,得 与 得 间距 大 。 注 意 ,如 果 聚 类 中 心 个 数 为 
1 或 者 等 于 个 体 数 ,都 是 无 意义 的 。 
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9.1.2 基本 表示 


训练 样本 : 每 个 个 体 的 数据 包含 多 项 特征 值 ,但 缺少 用 户 手 动 标注 的 类 别 信息 
(标签 )。 训 练 样本 集合 表示 为 {zx ,xs，… ,zx,} ,其 中 ,用 m 表示 总 样本 个 数 , 第 i 个 训 
练 样本 表示 为 zi。 每 个 训练 样本 由 n 项 特征 值 组 成 。 

CALE Cluster) : 可 能 具有 一 定 内 在 联系 的 个 体 群 。 一 个 类 可 能 包含 一 个 或 
多 个 个 体 。 类 一 般 不 相交 。 聚 类 过 程 将 会 自动 形成 类 ,但 最 终 该 徐 所 具有 的 含义 必须 
由 聚 类 算法 的 使 用 者 来 确定 。 第 i 个 类 表示 为 c;。 类 的 个 数 一 般 表示 为 KK m. 

聚 类 中 心 (Centroid) : 多 个 个 体 组 成 的 徐 的 中 心 。 如 果 该 簇 只 有 一 个 个 体 ,那么 
其 聚 类 中 心 就 位 于 本 身 。 聚 类 中 心 的 个 数 显然 等 于 类 的 个 数 mx。 第 上 个 聚 类 中 心 表 
RON pas 

如 图 9. 1 所 示 ,假设 利用 收入 、 存 款 两 项 特征 值 对 银行 客户 聚 类 , 横 纵 坐标 分 别 表 
征 一 项 特征 值 的 相对 大 小 ,每 一 个 小 点 代表 一 个 训练 样本 ,每 个 大 圈 表 示 一 个 类 , 圈 内 
的 样本 都 隶属 于 该 类 , 圈 的 中 心 即 聚 类 中 心 。 这 里 显然 将 所 有 个 体 分 为 三 类 。 

0.6 
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个 体 间距 离 : 聚 类 算法 希望 把 相似 的 个 体 聚 集 在 一 起 ,不 相似 的 个 体 划分 到 不 同 
的 类 。 因 此 必须 有 一 个 量 来 衡量 两 个 个 体 之 间 的 差异 。 常 用 的 距离 度量 为 欧 氏 距离 ， 
但 是 根据 具体 问题 ,也 会 用 到 相应 合理 的 距离 度量 。 

EEEN: 紧 类 算法 希望 达到 “ 簇 间 距离 大 ”的 效果 。 两 个 簇 各自 都 有 多 个 个 体 ， 
那么 如 何 衡量 这 两 个 簇 的 间距 呢 ? 最 直观 的 方法 是 用 两 个 簇 内 的 个 体 两 两 之 间 的 距 
离 总 和 的 平均 值 作为 簇 间距 离 。 也 可 以 取 两 个 类 中 距离 最 近 的 两 个 样本 的 距离 作为 
这 两 个 集合 的 距离 ,但 是 有 可 能 据 此 判断 距离 很 近 的 两 个 类 ,整体 上 看 却 相距 很 远 。 
与 上 一 个 方法 相反 ,也 可 以 取 两 个 簇 里 相距 最 远 的 两 个 点 作为 两 个 簇 的 距离 。 类 似 
地 ,可 能 据 此 判定 相距 很 远 的 两 个 簇 ,实际 上 从 整体 上 来 看 相距 已 经 很 近 了 。 秘 间距 
离 的 判别 在 层次 聚 类 算法 中 非常 重要 。 
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9.2 K-Means 算法 


9.2.1 算法 简介 


要 使 用 K-Means 算法 ,用 户 需要 预先 指定 聚 类 个 数 K. K-Means 算法 将 会 初始 
给 出 K 个 随机 的 聚 类 中 心 。 

为 了 得 到 * 簇 内 距离 小 , 簇 间距 离 大 ”的 聚 类 效果 ,K-Means 的 做 法 是 最 终 找到 K 
个 合适 的 聚 类 中 心 ,来 最 小 化 平方 误差 : 

J- 3 | 一 人 

为 此 ,K-Means 采取 的 是 贪心 的 策略 来 求 近似 解 ,不 断 地 把 每 个 个 体 分 配 至 距离 
它 最 近 的 那个 聚 类 中 心 ,然后 移动 每 个 聚 类 中 心 到 它 所 代表 的 这 个 类 的 中 心 。 随 后 算 
法 重复 : 分 配 聚 类 中 心 ,移动 聚 类 中 心 。 通 过 多 次 迭代 来 减 小 平方 误差 。 

注意 ,有 时 用 户 自己 并 不 知道 合适 的 K 应 该 为 多 少 , 稍 后 会 提 到 一 些 方法 来 自动 
MEK. 


9.2.2 算法 流程 


1. 初始 化 天 个 聚 类 中 心 


为 了 保证 聚 类 中 心 位 于 确实 有 意义 的 位 置 BATT RE AB E Cni ,zo，… ,zw} 中 随机 
选择 KK 个 个 体 作为 聚 类 中 心 ja ,yo sn ,px :而 不 是 完全 随机 地 给 定 聚 类 中 心 的 位 置 。 

如 果 关 于 训练 样本 有 一 些 先 验 知识 ,或 已 经 预先 知道 了 个 聚 类 中 心 的 大 概 位 
置 ,用 户 也 可 以 指定 聚 类 中 心 位 置 。 合 适 的 初始 设置 将 会 极 大 改善 最 终 聚 类 的 效果 ， 
并 提高 聚 类 算法 的 效率 。 

注意 ,由 于 K-Means 算法 的 寻 优 采取 的 是 贪心 策略 , 较 容易 陷入 局 部 最 优 ,因此 
算法 对 于 初始 聚 类 中 心 的 位 置 非常 敏感 ,同样 的 训练 样本 集 和 同样 的 KK, 最终 经 常 得 
到 不 同 的 聚 类 结果 ,MATLAB 代码 示意 如 下 : 


function centroids = kMeansInitCentroids(X, K) % 给 定 训练 样 本 和 聚 类 个 数 K, 随机 生成 


名 初始 聚 类 中 心 
randidx = rand permutation(m); X 将 所 有 nm 个 样本 的 序号 随机 排列 
centroids = X(randidx(1:K), :); X 取出 前 K 个 序号 的 样本 作为 初始 的 聚 类 中 心 


end 


此 外 ,对 于 初始 聚 类 中 心 位 置 的 选取 ,也 可 以 计算 所 有 训练 样本 的 均值 ,在 它们 附 
近 随 机 选取 一 些 位 置 作 为 初始 聚 类 中 心 。 
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2. 为 每 个 个 体 分 配 聚 类 中 心 


为 了 逐步 减 小 平方 误差 值 J ,我 们 为 所 有 m 个 个 体 寻 找到 离 它 最 近 的 聚 类 中 心 ， 
并 为 此 个 体 标注 其 所 属 的 类 。 为 下 一 步 移动 聚 类 中 心 至 合适 的 位 置 打 基础 。 
这 里 ,个 体 到 聚 类 中 心 的 距离 用 平方 误差 计算 : E pu l^. 


function idx = findClosestCentroids(X, centroids) 
fori - l:m 
minDistance - 9999999; 
forj = 1:K 
dis = X(i,:) - centroids(j,:); * 计算 该 个 体 与 每 个 聚 类 中 心 的 欧 氏 距 离 
dis = dis * dis'; 
if dis < ninDistance 
minDistance = dis; 
idx(i) = j; * 如 果 第 j 个 聚 类 中 心 聚 类 第 i 个 个 体 最 近 , 那 
* 么 标注 该 个 体 属于 第 j 个 类 


3 移动 聚 类 中 心 


在 设置 完 初 始 聚 类 中 心 后 ,每 个 簇 内 仅 有 一 个 个 体 ,这 时 显然 聚 类 中 心 就 位 于 该 
徐 的 中 心 位 置 。 但 加 入 其 他 的 个 体 后 , 聚 类 中 心 就 需要 移动 其 位 置 以 保证 自己 位 于 簇 
的 中 心 。 

function centroids = computeCentroids(X, idx, K) 

forj = 1:K 

belong = find(idx-- j); & 找到 有 哪些 个 体 从 属于 第 j 个 聚 类 中 心 
for i = 1:length(belong) 
assign = assign + X(belong(i), :); 
end 
centroids(j,:) = assign/length(belong) ; s 求 出 所 有 属于 这 个 聚 类 中 心 的 个 体 的 
* 均值 向 量 (新 的 中 心 位 置 ) 
end 


end 


4. 迭代 


算法 不 断 重复 第 2,3 步骤 ,直到 达到 停止 条 件 ( 用 户 设置 的 最 大 迭代 次 数 , 或 者 两 
次 迭代 并 未 改变 聚 类 结果 等 ) 。 


function [centroids, idx] = runkMeans(X, K, max iters) 


© 130 





fom RIAL 


centroids = kMeansInitCentroids(X, K); 
for i=1:max_iters 
idx = findClosestCentroids(X, centroids); 
centroids = computeCentroids(X, idx, K); 
end 


end 
9.2.3 K-Means 的 一 些 改进 


聚 类 中 心 可 以 动态 添加 、 删除。 显然 ,如 果 在 K-Means 迭代 过 程 中 ,有 的 聚 类 中 
心 不 包含 任何 个 体 了 ,那么 它 或 许可 以 被 删除 。 为 了 保证 指定 的 K 不 变 ,还 可 以 另外 
寻找 一 个 随机 位 置 放置 该 聚 类 中 心 。 

如 果 有 的 个 体 偏 离 已 有 聚 类 中 心 很 远 ,那么 可 以 为 其 单独 设置 一 个 聚 类 中 心 。 

此 外 ,如 果 一 个 类 包含 过 多 的 个 体 ,那么 它 可 以 被 继续 划分 为 两 个 多 个 类 。 稍 后 
提 到 的 X-Means 方法 就 用 到 了 该 思想 。 


9.2.4 选择 合适 的 天 


在 聚 类 中 判断 合适 聚 类 个 数 最 直接 的 方法 是 观察 样本 的 可 视 化 图 ,然后 手动 选择 
合适 的 开 。 或 者 根据 用 户 需求 ,设置 合适 的 K 
以 上 面 给 出 的 银行 用 户 聚 类 应 用 为 例 , 同 样 的 训练 样本 ,也 许 银 行经 理想 把 他 们 
分 为 两 类 : 普通 客户 与 金牌 客户 ,如 图 9. 2 所 示 。 
0.6 











图 9.2 K=2 时 聚 类 结果 


也 有 可 能 是 三 类 : 普通 客户 ,银牌 客户 ,金牌 客户 ; 四 类 、 五 类 如 图 9. 3 一 图 9.5 
Bim. 
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图 9.3 K=3 时 聚 类 结果 
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此 外 ,还 有 一 些 方法 可 以 帮助 我 们 选择 合适 的 ,例如 肘 部 法 则 。 

根据 K-Means 聚 类 算法 的 原理 ,如 果 二 1, 那 么 代价 函数 为 最 大 ,如 果 K — e 
数 ,那么 显然 代价 函数 为 0, 即 K 从 1 到 最 大 ,代价 函数 会 不 断 减 小 。 

但 在 某 个 K 取 值 之 前 ,可 能 全 局 代价 函数 在 快速 减 小 ,而 之 后 则 减 小 速度 变 慢 。 
肘 部 法 则 认为 该 K 很 可 能 为 合适 的 K。 

肘 部 法 则 只 能 在 一 定 程度 上 辅助 我 们 确定 合适 的 KK, 并 不 总 能 给 出 最 佳 结果 。 


9.2.5 X-Means 


K-Means 算法 结构 简单 ,而 且 应 用 广泛 ,但 是 它 的 聚 类 数 KC 必须 由 用 户 指定 ,而 
有 时 用 户 很 难 自己 给 出 合适 的 玉 。 同 时 ,K-Means 的 寻 优 策略 也 导致 它 对 初 值 十 分 
敏感 ,很 容易 陷入 局 部 最 优 。 

Dan Pelleg 和 Andrew Moore 提出 了 一 种 自动 计算 合适 的 聚 类 个 数 的 方法 ,K- 
Means 的 扩展 版 本 为 X-Means。 相 比 于 多 次 尝试 不 同 值 下 的 K-Means 来 选择 合 
适 K 的 传统 方法 ,X-Means 更 加 高 效 。 

用 户 需 要 给 定 的 不 再 是 一 个 固定 的 值 ,而 是 的 大 概 范围 。X-Means 算法 先 
按照 范围 下 限 运行 普通 的 K-Means 算法 。 

随后 ,X-Means 尝试 将 每 个 禾 的 聚 类 中 心 分 离 成 两 个 。 一 个 聚 类 中 心 随机 向 某 
方向 移动 一 段 距离 (但 不 能 越过 本 簇 的 范围 ), 另 一 个 聚 类 中 心 向 相反 方向 移动 相同 的 
距离 。 

在 簇 内 ,以 当前 两 个 子 聚 类 中 心 is f; K —2 的 局 部 K-Means。 相 当 于 两 个 聚 类 
中 心 开始 互相 竞争 di f A P I 

得 内 的 K-Means 算法 停止 后 , X-Means 采用 一 种 模型 评估 方法 (Bayesian 
Information Criterion ,这 里 只 是 简单 描述 X-Means 算法 流程 ,拓展 读者 对 于 K-Means 
的 理解 和 应 用 能 力 ,不 再 详 述 BIC 方法 ,具体 请 查阅 原文 献 ) ,判断 现在 两 个 聚 类 中 心 
是 否 比 原本 一 个 聚 类 中 心 更 合理 地 组 织 了 簇 内 的 个 体 。 如 果 是 , 则 保留 现状 ,对 全 局 
来 说 KK 的 值 加 1; 反之 , 则 退回 一 个 聚 类 中 心 的 情况 。 

算法 将 会 不 断 迭 代 ,为 所 有 的 新 产生 的 簇 划分 聚 类 中 心 .评估 模型 好 坏 ,直到 总 聚 
类 数 达 到 上 限 。 

X-Means 覆盖 了 搜索 空间 中 全 部 的 2* 种 可 能 的 分 割 情况 ,并 且 通 过 每 次 局 部 地 
改进 BIC 指数 来 为 全 局 寻找 合适 的 聚 类 中 心 个 数 。 寻 找 合适 K 的 算法 复杂 度 仅 为 
O(K). 


(D Pelleg D, Moore A W. X-Means: Extending K-Means with efficient estimation of the number of clusters 
[C]//leml. 2000,1; 727-734. 
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9.3 JARRE 


层次 聚 类 提供 了 另 一 种 思路 来 帮助 用 户 判 断 合适 的 聚 类 个 数 。 

层次 聚 类 将 所 有 个 体 各 自 看 成 一 类 , 即 共有 zz 个 簇 。 然 后 ,计算 每 个 艇 与 其 他 所 
有 敌 之 间 的 距离 ,把 最 相似 的 两 个 簇 合并 成 一 个 徐 , 此 时 共有 mm 一 1 个 类 。 

随后 ,算法 不 断 重复 以 上 过 程 ,直到 最 后 把 所 有 个 体 归 为 一 类 。 

层次 聚 类 一 次 性 、 自 下 而 上 地 绘制 出 了 一 个 “ 聚 类 树 状 图 ”, 两 个 艇 连接 在 一 起 , 即 
表示 在 某 次 迭代 中 ,这 两 个 徐 间 距 最 小 ,被 认为 是 相似 的 可 以 合并 。 两 个 簇 在 树 状 图 
中 多 高 的 位 置 连接 ,就 代表 这 两 个 簇 间 距 有 多 大 ,如 图 9. 6 所 示 。 





2.5 























1 I 1 I ] 
4 5 1 3 2 


图 9.6 层次 聚 类 示意 





一 次 性 得 到 聚 类 树 状 图 后 ,用 户 可 以 观察 类 与 类 的 距离 ,自行 选择 玉 , 而 且 不 需 
要 重复 进行 聚 类 计算 。 比 如 ,用 户 可 以 确定 类 与 类 之 间 的 距离 小 于 多 少 , 则 可 以 合并 。 
形象 地 说 ,就 好 比 用 户 在 上 面 的 树 状 图 的 竖 轴 某 个 位 置 向 右 横 切 一 刀 , 切 断 了 多 少 条 
线 ,那么 就 得 到 多 少 个 类 。 如 果 用 户 提前 确定 了 两 个 类 之 间 的 最 大 允许 距离 ,那么 层次 
聚 类 在 发 现 所 有 艇 当中 最 近 的 两 个 入 间 距 已 经 超过 最 大 允许 值 时 ,迭代 就 可 以 停止 了 。 
需要 注意 的 是 ,层次 聚 类 需要 大 量 的 距离 计算 ,效率 较 低 。 


9.4 聚 类 算法 拓展 


9.4.1 聚 类 在 信号 处 理 领域 的 应 用 


本 节 介 绍 聚 类 算法 在 信号 处 理 分 离 领域 的 应 用 ,作为 读者 对 聚 类 算法 应 用 的 一 个 
拓展 阅读 。 
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在 信号 处 理 领域 ,一 个 经 常 使 用 的 操作 是 利用 独立 成 分 分 析 算 法 处 理 混杂 的 观测 
信号 ,得 到 原始 信号 。 但 由 于 真实 源 信号 是 未 知 的 ,ICA 得 到 的 估计 成 分 的 可 靠 性 也 
难以 评估 。 

为 了 解决 该 问题 ,文献 ICASSO9'@ 提 出 ,设置 不 同 的 初始 值 进行 多 次 ICA, 利 用 
互信 息 对 所 有 的 估计 成 分 进行 聚 类 。 从 统计 角度 来 看 ,结合 紧密 的 信号 复 为 可 靠 性 较 
高 的 估计 成 分 ; 相反 ,那些 没有 隶属 于 紧密 信号 簇 的 估计 成 分 往往 是 不 可 靠 的 估计 。 

这 里 ,ICASSO 即 利 用 了 聚 类 算法 可 以 无 监督 地 发 现 数据 之 间 关 联 的 特性 。 


9.4.2 以 语义 聚 类 的 形式 展示 网 络 图 像 搜索 结果 


大 家 都 在 百度 或 Google 上 检索 过 图 片 。 网 络 图 像 搜索 引擎 根据 用 户 输入 的 文本 
信息 在 网 络 中 进行 查找 。 但 是 ,用 户 给 定 的 检索 关键 字 往往 非 常 短 (两 三 个 词汇 ), 且 
有 具有 歧义 。 例 如 ,用 户 在 检索 有 关 “ 苹 果 ” 的 图 片 时 ,可 能 指 的 是 苹果 公司 ,或 iPhone 
手机 ,也 可 能 指 的 是 苹果 这 种 水 果 。“ 老 虎 ” 可 能 指 的 是 动物 老虎 ,也 可 能 是 著名 高 尔 
夫 球 选手 Tiger Woods。 在 没有 任何 先 验 知识 的 情况 下 ,搜索 引擎 返回 的 图 片 集 很 可 
能 是 庞大 且 繁 杂 的 ,用 户 体验 差 。 

聚 类 算法 可 以 帮助 我 们 整理 繁杂 的 搜索 结果 ,给 用 户 更 合理 的 搜索 建议 ,提升 用 
户 友好 性 。 研 究 者 们 提出 了 一 个 网 络 图 像 搜 索 结果 语义 聚 类 的 框架 一 -IGroup2'@ , 
用 于 克服 将 查询 请 求 标准 化 的 困难 ,并 且 为 用 户 提供 搜索 建议 ,该 框架 的 效率 .图片 搜 
AR Aii TUE i HE ,以 及 用 户 使 用 满意 度 都 被 实验 所 证 明 。 

IGroup 框架 有 两 个 主要 操作 步骤 ,学 习 得 到 候选 图 片 聚 类 的 名 称 , 合 并 调整 聚 类 
名 称 。 甚 思想 非常 简单 ,就 是 借助 网 络 搜索 引擎 发 现 用 户 可 能 关注 的 主题 究竟 是 什 
么 。 先 对 用 户 的 检索 关键 词 进行 一 步 检 索 ,将 检索 结果 进行 分 词 处 理 , 提 取 与 待 检索 
图 片 相关 的 主要 词汇 。 对 每 个 词汇 计算 定义 好 的 特征 ,如 词汇 出 现 频率 ,词汇 长 度 等 。 
据 此 ,作者 可 以 根据 预 训练 好 的 模型 将 主题 词汇 进行 重要 程度 打分 ,选取 排名 靠 前 的 
几 个 作为 用 户 最 可 能 关注 的 主题 。 得 到 备 选 的 主题 后 ,再 根据 同义词 等 规则 ,将 聚 类 
的 名 称 进行 修剪 ,合并 同义词 去 除 可 能 无 用 的 聚 类 。 

网 络 上 的 图 像 一 般 会 与 大 量 文本 数据 一 同 出 现 ,这 些 文本 数据 可 以 作为 图 像 数据 
的 元 数据 。 我 们 利用 刚才 得 到 的 文本 关键 词 聚 类 结果 ,再 次 利用 网 络 搜索 引擎 进行 图 


(D Himberg, Johan, Aapo Hyvarinen, and Fabrizio Esposito. “Validating the independent components of 
neuroimaging time series via clustering and visualization. " Neuroimage 22. 3 (2004): 1214-1222. 

®© Himberg, Johan, and Aapo Hyvarinen. “Icasso: software for investigating the reliability of ICA 
estimates by clustering and visualization. " Neural Networks for Signal Processing, 2003. NNSP'03. 2003 IEEE 
13th Workshop on. IEEE, 2003. 

®© Jing F, Wang C, Yao Y, et al. IGroup: web image search results clustering[ C ]//Proceedings of the 
14th ACM international conference on Multimedia. ACM, 2006; 377-384. 

G Wang S, Jing F, He J, et al. Igroup: presenting web image search results in semantic clusters[ C]// 
Proceedings of the SIGCHI conference on Human factors in computing systems. ACM, 2007: 587-596. 
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KER. 

据 此 ,我 们 可 以 从 用 户 输入 的 简单 的 关键 词 ,猜测 出 了 用 户 可 能 关注 的 主题 ,并 且 
聚 成 不 同类 别 进行 检索 ,为 用 户 分 类 展示 出 来 。IGroup 设计 了 方便 用 户 查 看 的 类 别 
展示 界面 ,用 户 可 以 快速 筛选 自己 期 望 的 图 片 。 

界面 左 侧 的 拖 动 栏 中 给 出 了 关于 tiger 的 不 同 主题 聚 类 结果 ,有 运动 员 老 虎 伍德 、 
不 用 种 的 老虎 等 。 当 用 户 单 击 组 别 标签 时 ,在 界面 右 侧 为 其 展示 该 组 别 下 的 图 片 。 对 
比 原来 杂乱 无 章 的 图 片 检索 结果 ,用 户 友好 性 显著 提升 。 

现在 ,Google、 百 度 搜索 也 应 用 了 类 似 方 法 ,如 图 9.7 所 示 。 








Google we ata s Em 











图 9.7 _ Google 图 片 搜索 界面 


l. 尝试 亲自 实现 K-Means 代码 ,查看 对 样本 数据 能 否 得 出 合理 的 聚 类 结果 。 

2. 可 不 可 以 使 用 其 他 寻 优 方法 代替 K-Means 中 使 用 的 贪心 策略 ? WEE E TH 
接 作 为 遗传 算法 的 目标 函数 ,来 寻找 合适 的 聚 类 结果 ,是 否 可 行 ? 

3. 计算 机 中 的 彩色 图 片 是 由 很 多 像素 点 组 成 的 ,每 个 像素 点 由 三 个 色彩 数值 记 
录 。 能 否 应 用 K-Means 压缩 图 片 ? 

4. 自 项 向 下 的 层次 聚 类 应 该 如 何 实现 ? 

5， 如 果 使 用 K-Means 算法 ,利用 银行 客户 的 各 项 数据 ,对 它们 进行 聚 类 ,但 聚 类 
结果 感觉 不 太 理 想 ,意义 不 太 明确 。 这 时 应 该 怎么 做 ? (增加 用 于 聚 类 的 用 户 数据 , 调 
整 初 值 多 次 尝试 ,调整 不 同 的 天 值 ,结合 专家 经 验 等 。) 
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寻 优 算法 之 遗传 算法 






10.1 简介 


10.1.1 算法 起 源 


生物 学 告诉 人 们 : 基因 是 控制 生物 性 状 的 基本 遗传 单位 ,储存 了 生命 的 全 部 信 
息 。 每 个 生物 个 体 都 拥有 自己 的 基因 序列 。 遗 传 过 程 中 ,个 体 的 基因 进行 不 同 的 复 
制 , 交 又 、 变 异 操作 ,把 自己 的 片段 留 给 后 代 。 种 群 中 那些 具有 能 适应 环境 的 有 利 变异 
的 个 体 更 容易 存活 下 来 并 繁殖 ,而 拥有 差 的 基因 的 个 体 则 慢 慢 被 淘汰 。 环 境 和 遗传 互 
相依 赖 ,演绎 着 生命 的 进程 ,指导 着 生物 种 群 向 更 优秀 的 方向 发 展 。 可 以 看 到 ,本 质 上 
生物 界 的 自然 选择 与 遗传 机 制 就 是 一 种 自 适应 的 随机 搜索 算法 ,而 且 具 有 很 好 的 鲁 
EHE. 


10.1.2 基本 过 程 


遗传 算法 (Genetic Algorithm, GA) 是 一 种 人 工 模拟 生 命 进化 的 学 习 方 法 ,最 初 
的 算法 由 John Holland 于 20 世纪 70 年 代 初期 提出 。 遗 传 算法 是 对 达尔 文生 物 进化 
理论 的 简单 模拟 ,遵循 “ 适 者 生存 ,不 适 者 淘汰 ”的 原理 。 通 常用 来 求解 无 约束 和 有 约 
东 的 非 线 性 优化 问题 。 标 准 优化 算法 难以 解决 的 目标 函数 不 连续 、 不 可 微分 、 随 机 或 
高 度 非 线 性 的 问题 ,遗传 算法 也 可 以 进行 求解 。 遗 传 算法 模仿 生物 进化 的 方式 ,交叉 、 
变异 当前 最 适应 环境 的 一 批 个 体 ,进而 生成 后 续 个 体 。 
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遗传 算法 的 进程 分 为 多 个 迭代 。 在 每 一 次 迭代 中 ,群体 中 的 个 体会 按 给 定 的 适应 
度 评估 方法 计算 其 当前 适应 度 , 根 据 适应 度 相应 的 概率 获得 繁殖 的 权利 , 即 优秀 的 父 
代 个 体 繁殖 的 概率 更 高 ,被 选中 的 父 代 个 体 交 叉 产生 携带 旧 基 因 片 段 的 子 代 新 个 体 。 
有 一 小 部 分 子 代 个 体 还 会 进行 变异 ,直接 修改 个 别 基 因 位 。 通 过 交叉 、 变 异 产生 的 子 
代 个 体 共同 组 成 新 种 群 ,进行 下 一 轮 迭 代 。 当 优化 目标 达到 指定 要 求 时 停止 迭代 , 算 
法 结束 。 遗 传 算法 所 维护 的 种 群 演化 为 了 其 所 寻找 到 的 最 优 解 。 

相 比 于 其 他 随机 搜索 算法 (如 模拟 退火 ) ,遗传 算法 在 每 次 迭代 中 维护 的 是 一 组 
解 ,而 不 是 一 个 解 ,种 群 中 的 最 优 解 即 代表 当前 所 寻找 到 的 最 优 解 ,而 且 每 次 迭代 中 种 
群 的 生成 过 程 都 是 随机 的 。 


10.1.3 基本 表示 


适应 度 : 每 个 个 体 在 当前 环境 下 适应 程度 的 数字 度量 , 即 针 对 给 定 寻 优 问题 ,每 
种 解 的 优秀 程度 。 

适应 度 函 数 : 适应 度 函 数 是 期 望 优化 的 函数 ,代表 了 要 解决 的 优化 问题 。 根 据 每 
个 基因 位 的 值 计算 评估 该 个 体 的 表现 好 坏 的 函数 , 即 衡量 解决 方案 的 优 劣 。 适 应 度 的 
评估 函数 确定 了 具体 的 寻 优 问题 。 需 要 区 分 适应 度 函 数 与 寻 优 问题 的 日 标 函 数 ,可 能 
需要 对 目标 函数 做 一 定 变形 (如 添加 负 号 等 ) 来 得 到 合适 的 适应 度 评估 函数 。 例 如 ， 
Jiris) =i — 1)? + Cap 2) ,.25,,2,€ (73, 2, 71,0,1,2,3 E39 — "tr fEEHX 
最 大 值 的 问题 就 可 以 直接 作为 适应 度 函数 (但 MATLAB 的 GA 工具 箱 默 认 寻找 最 小 
适应 度 ,这 时 就 需要 对 原 函 数 做 变换 ,例如 取 反 ) 。 

基因 : 每 个 基因 代表 着 寻 优 问题 中 一 个 参数 的 值 。 寻 优 问题 往往 有 多 个 参数 , 因 
此 每 个 个 体 也 有 多 个 基因 位 。 

个 体 : 代表 搜索 空间 上 的 一 个 点 , 即 对 给 定 问题 的 一 组 完整 解 。 我 们 通常 使 用 一 
个 由 0 和 1 组 成 的 二 进 制 串 来 代表 一 个 个 体 ,二进制 串 上 的 每 个 数字 都 代表 一 个 基因 
位 。 对 于 上 面 提 到 的 适应 度 函 数 /zzz),(2,3) 就 可 以 是 一 个 个 体 , 它 有 两 个 基 
因 位 。 

种 群 : 指 代 所 有 个 体 的 集合 。 生 物 的 进化 以 种 群 的 形式 进行 。 在 遗传 算法 中 , 群 
体 大 小 (个 体 的 总 数 ) 在 多 次 迭代 里 一 般 是 固定 不 变 的 。 在 一 个 种 群 中 可 以 有 多 个 一 
样 的 个 体 。 

交叉 : 两 个 个 体 的 基因 在 某 些 位 置 切 断 ,互相 交换 基因 片段 ,产生 新 的 个 体 的 过 
程 。 优 秀 的 父 代 往 往 有 更 大 的 机 会 繁殖 ,将 自己 的 基因 通过 交叉 遗传 给 后 代 。 

变异 : 遗传 过 程 中 有 可 能 产生 一 些 差 错 ,导致 个 别 基因 位 变化 ,适应 度 也 随 之 改 
变 。 变 异 可 能 是 有 害 的 ,也 可 能 是 有 益 的 。 


10.1.4 输入 输出 
输入 : 根据 具体 问题 的 编码 方式 (如 待 寻 优 问题 是 01 背包 问题 , 则 可 采用 二 进 制 
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字符 串 编码 ,0 代表 不 取 物 品 ,1 代表 取 物 品 ,010 代表 只 取 第 2 个 物品 ,以 此 类 推 ) ,与 

寻 优 问题 对 应 的 适应 度 函 数 ,对 变量 区 间 范 围 的 限制 ,对 算法 的 精度 要 求 ( 停 止 迁 代 时 

需 达 到 的 适应 度 等 ) ,群体 的 大 小 (个 体 数 ) ,进行 交叉 操作 的 个 体 所 占 群 体 比例 ,个 体 

变异 的 概率 ,变异 步 长 ,一般 寻 优 算法 限制 (最 大 迭代 次 数 、 算 法 最 长 运行 时 间 等 )。 
输出 : 在 输入 的 限制 下 ,遗传 算法 最 终 找到 的 最 优秀 的 个 体 及 适应 度 。 


10.1.5 优 缺 点 及 应 用 


在 编码 方案 、 适 应 度 函 数 等 设置 好 后 ,遗传 算法 寻找 最 优 解 的 过 程 是 自 适 应 ,启发 
式 的 ,不 需要 其 他 指导 。 即 遗传 算法 是 非常 普 适 的 ,即使 你 对 所 寻 优 的 目标 函数 了 解 
不 多 , 它 一 样 可 以 帮 你 寻找 到 一 个 较 高 质量 的 结果 。 

遗传 算法 易于 并 行 化 ,进而 降低 使 用 计算 机 硬件 的 预算 。 

遗传 算法 的 目标 函数 不 受 连续 、 可 微 等 条 件 的 约束 ,适用 范围 很 广 。 

使 用 遗传 算法 解决 寻 优 问题 ,只 需要 修改 适应 度 函 数 ,针对 具体 的 问题 重新 进行 
基因 编码 ,而 不 需要 对 遗传 算法 本 身 做 任何 修改 。 

遗传 算法 的 全 局 搜索 能 力 较 弱 ,很 容易 较 早 地 陷 人 局 部 最 优 。 

遗传 算法 本 身 非常 简单 ,而 且 已 经 被 成 功 应 用 于 许多 问题 ,如 函数 优化 ,模式 识 
别 、 优 化 人 工 神经 网 络 学 习 参 数 、 自 适应 控制 等 ,大 大 提高 了 这 些 优化 问题 的 求解 
效率 。 

例如 对 于 神经 网 络 , 相 邻 两 层 神经 元 之 间 的 网 络 连 接 权 值 作为 多 个 待 寻 优 参数 可 
以 组 成 遗传 算法 中 的 一 个 个 体 ,适应 度 函 数 指定 为 神经 网 络 在 训练 集 上 的 精度 ,那么 
遗传 算法 就 可 以 帮助 我 们 寻找 一 组 合适 的 神经 网 络 层 间 权 值 。 


10.2 算法 原型 


算法 采取 模拟 生物 进化 的 策略 ,其 维护 一 个 包含 多 种 可 行 解 的 群体 ,来 执行 多 方 
向 随机 搜索 。 

在 使 用 遗传 算法 寻 优 之 前 , 先 需要 对 具体 的 问题 设 定 合适 的 编码 方案 。 例 如 ,对 
于 寻找 函数 最 小 值 的 问题 fn sas) = Gi 7 D? + Ge; — 2)? ,zzE[0,1,2,3,4,5]， 
可 以 直接 选用 二 进 制 编码 来 表示 个 体 。 

整体 算法 流程 如 图 10. 1 所 示 。 


10.2.1 初始 化 


在 做 好 准备 工作 (如 设 定编 码 方案 、 算 法 停止 条 件 ) 后 ,算法 将 会 在 给 定 范围 内 随 
机 生成 一 个 种 群 。 给 定数 量 个 个 体 (可 行 解 ) 被 随机 地 撤 在 搜索 空间 里 。 
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1. 初始 化 
初始 群体 
01000101 
10011001 
11100010 
01010010 
10101101 
2. 评 估 3. 选择 优秀 个 体 
01000101-> 适 应 度 值 
10011001-> 适 应 度 值 10101101 
11100010-> 适 应 度 值 [| 直接 进入 子 代 群 体 
01010001-> 适 应 度 值 
10101101-> 适 应 度 值 
[5 
3-5. 遗传 LLLUAEX 
0100010101000010 LY 
1110/0010711100101 01000010 
je Hz PRE |———— ai 
PAE ACH 1001 1/001.10011010 E 
11100/010711100001 11100001 
6. eet 了 变异 
判断 是 否 达 到 停止 — — 10011010->10011011 KJ 
条 件 














是 


7. 输 出 





从 最 终 的 群体 中 返回 
适应 度 最 优秀 的 个 体 








10.1 遗传 算法 流程 


群体 中 包含 的 个 体 数 越 多 ,一 开始 便 越 容易 有 个 体 得 到 高 适应 度 。 
10.2.2 评估 


适应 度 函 数 fitness() 对 所 有 个 体 i 的 染色 体 X; 进行 评估 ,计算 出 每 个 个 体 在 当 
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前 环境 下 的 优秀 程度 f;。 
fi=fitness(X;) 
下 面 开 始 利用 父 代 群 体 产生 子 代 群 体 。 在 每 次 迭代 中 ,群体 的 大 小 保持 恒定 。 并 
且 , 子 代 群 体 有 三 种 产生 方式 : 直接 进入 子 代 群体 的 优秀 个 体 、 由 父 代 个 体 交 叉 产 生 
的 个 体 、 交 叉 后 变异 产生 的 个 体 。 


function fitness = evaluate(population) 
fori = 1: n population 
fitness(i) = ObjectiveFunction(individual(i)); 
end 


end 


10.2.3 选择 优秀 个 体 


采用 轮 盘 赌 随机 算法 ,按照 适应 度 越 高 ,被 选中 概率 越 大 的 原则 ,挑选 出 一 定 比例 
rexeellenet 的 优秀 个 体 ,直接 进入 子 代 群 体 。 与 自然 界 自然 选择 的 过 程 稍 有 不 同 ,这 是 为 
了 尽 可 能 保留 每 次 迭代 中 群体 里 已 经 找到 的 优秀 个 体 ,避免 被 交叉 ,变异 过 程 破坏 。 
每 个 个 体 被 选中 的 概率 户 为 


下 面 看 一 个 具体 的 轮 盘 财 的 例子 。 
如 果 种 群 中 共有 4 个 个 体 ,其 适应 度 计算 出 来 分 别 是 1,2、4、5, 那 么 它们 被 选中 
1 2 4 5 
Mbps T Diss 
随机 产生 一 个 大 小 在 [0,1] 的 浮 点 数 ,如 果 它 落 在 [0, 十 ], 则 选取 第 1 个 个 体 ， 


如 果 它 落 在 [十 , 吝 ], 则 选取 第 2 个 个 体 ; 以 此 类 推 。 


自然 界 中 越 优秀 的 个 体 越 容易 繁 殖 后 代 。 在 遗传 算法 中 ,我 们 也 不 是 直接 选用 所 
有 高 适应 度 的 个 体 , 而 是 按 随机 算法 给 予 所 有 个 体 繁殖 的 机 会 。 这 是 为 了 避免 群体 立 
刻 被 初始 适应 度 高 的 个 体 后 代 占 领 , 即 避免 算法 快速 陷入 局 部 最 优 。 即 强调 概率 转换 
规则 ,而 不 是 确定 的 转换 规则 。 

此 外 还 有 其 他 常用 的 选择 策略 ,如 排序 选择 法 。 群 体 中 所 有 个 体 按照 适应 度 排 
序 ,其 被 选中 的 概率 与 它 的 排名 成 比例 ,而 不 是 直接 与 适应 度 的 大 小 成 比例 。 

锦标 赛 策略 : 


function SelectedIndividual = RouletteWheelSelect(population, fitness) 
interval(0) - 0; 
fori - 1: n population 
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end 





probability(i) = fitness(i) / sum(fitness); 
interval(i) = sum(probability(1:i- 1)) + probability(i); 
% interval(i) 表示 第 i 个 个 体 所 可 能 被 选取 的 区 间 的 后 端 
end % for 
num = random float(0, 1); 
fori = 1: n population 
if num >= probability(i- 1) && num «- probability(i) 
SelectedIndividual = i; 
end 
end * for 


% function 


10.2.4 £X 


类 似 于 选择 优秀 个 体 的 过 程 , 继 续 按 照 概率 方法 从 父 代 群体 中 选择 比例 reosovr 一 
1 一 ras 的 个 体 两 两 配对 ,交换 信息 。 值 得 注意 的 是 ,一 个 父 代 个 体 是 有 可 能 被 选中 
交叉 运算 在 遗传 算法 中 起 关键 作用 ,是 产生 新 个 体 的 主要 方法 , 它 从 不 同 父 
代 个体 上 提取 优秀 基因 并 且 重新 组 合 得 到 潜在 的 优秀 子 代 。 交 叉 可 以 有 多 种 不 同方 


多 次 的 。 


式 , 常 用 的 有 以 下 几 种 。 


CD 单 点 交叉 : 将 两 个 父 代 个 体 在 同一 随机 位 置 截 断交 叉 。 如 00010 || 110111 与 


11110 || 101010 交叉 后 得 到 子 代 00010101010, 11110110111, 


(2) 两 点 交叉 : 将 两 个 父 代 个 体 在 两 个 相同 的 随机 位 置 截断 ,互相 交换 中 间 的 基 
因 。 如 oo || 01011 || 0111 与 11 || 11010 || 1010 交叉 后 得 到 子 代 00110100111, 


11010111010, 


(3) HZL: 在 两 个 父 代 个 体 上 均匀 随机 选择 一 些 基因 位 进行 交叉 。 如 0 || 00 || 
101 || 1 || 01 || 11 5 1 || 11 || 101 || o0 || 10 || 10 交叉 后 得 到 子 代 01110111011, 


10010100110. 


function NextGeneration = OffspringFromCrossover(NextGeneration) 


end 


while(n population * r_crossover -- 2) 
parentl = RouletteWheelSelect() ; 
parent2 = RouletteWheelSelect() ; 
location = random int(1, length individual- 1); 


offspringl = parentl(1:location) + parent2(location*1 : end); 
offspring2 = parent2(1:location) + parent2(location+1 : end); 


NextGeneration - NextGeneration * offspringl * offspring2; 
end % while 
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10.2.5 变异 


在 子 代 群 体 中 挑选 一 小 部 分 rao 个体, 随机 选取 一 些 基因 位 进行 变化 。 

变异 决定 了 遗传 算法 的 局 部 搜索 能 力 ,同时 保持 物种 群 的 多 样 性 。 它 可 能 导致 个 
体 的 适应 度 变 差 ,但 同时 也 为 寻找 到 更 优秀 解 增加 了 可 能 。 交 叉 与 变异 运算 相互 配 
合 ,共同 完成 对 搜索 空间 的 全 局 搜索 和 局 部 搜索 。 

变异 个 体 所 占 群 体 全 部 个 体 的 比例 不 应 太 高 。 变 异 率 越 高 ,群体 的 变化 也 就 越 活 
跃 ,有 可 能 丢失 最 优 解 。 变 异 率 太 高 , 则 遗传 算法 就 退化 为 随机 搜索 。 变 异 率 越 低 , 群 
体 找到 最 优 解 就 越 慢 ,降低 了 搜索 能 力 。 

对 二 进 制 表示 的 个 体 ,变异 的 常用 方法 主要 是 随机 选取 一 个 位 取 反 。 如 
00010110111 变异 后 得 到 新 个 体 00010100111。 

对 浮 点 数 表示 的 个 体 ,变异 的 一 般 过 程 是 对 原来 的 数 增加 或 减少 一 个 小 随机 数 。 
改变 的 幅度 大 , 则 群体 进化 速度 快 ,搜索 空间 大 ; 改变 的 幅度 小 , 则 算法 易于 收敛 到 精 
确 的 点 上 。 遗 传 算法 中 常见 的 做 法 是 采取 动态 改变 步 长 的 方法 ,在 算法 运行 前 期 使 用 
大 幅度 变异 ,后 期 使 用 小 幅度 变异 。 


function NextGeneration = OffspringFromMutation(NextGeneration, r_mutation) 
for i = 1: n population 
if random float(0, 1) <= r mutation 
location = random int(1,length individual); 
NextGeneration(location) = 1 - NextGeneration(location); 
end 
end 
end 


10.2.6 SEX 


新 的 群体 产生 后 ,算法 继续 重复 选择 遗传 闪 代 ,直到 算法 满足 停止 条 件 , 如 达到 
适应 度 要 求 ,或 达到 了 最 大 迭代 次 数 。 

例如 ,连续 多 次 迭代 内 出 现 的 最 优 个 体 的 适应 度 都 相近 (变化 幅度 小 于 一 个 设 定 
阔 值 ) , 则 算法 很 可 能 已 经 寻找 到 最 优 解 , 则 可 以 终止 运算 。 也 可 以 针对 具体 问题 按照 
经 验 的 方法 固定 迭代 次 数 。 


function (BestSolution, BestFitness) = GeneticAlgorithm(ObjectiveFunction, n population) 
fori = 1: n population 
initialize(population(i)); 
end 
do 
fitness - evaluate(population); 


w © 





MU EPI 


NextGeneration = Ø; 
while(r excellent * n population -- ) 
Generation = Generation + RouletteWheelSelect(population, fitness); 
end 
while(r crossover * n population -- 2) 
NextGeneration = OffspringFromCrossover(NextGeneration) ; 
end 
NextGeneration = OffspringFromMutation(NextGeneration, r mutation); 
population = NextGeneration; 
while (CheckStoppingConditions()); 
(BestFitness, i) = max(fitness); 
BestSolution = population(i); 


end 


ik: 以 上 伪 代 码 是 基础 普 适 的 代码 ,只 涵盖 了 二 进 制 编码 下 的 轮 盘 赌 算法 、 单 点 
交叉 运算 、 单 点 取 反 变异 运算 ,展示 基本 的 遗传 算法 结构 ,没有 包含 越界 检查 等 细节 。 

回顾 整个 遗传 算法 ,可 以 看 到 ,算法 本 身 并 没有 针对 特定 寻 优 问题 做 出 任何 指导 ， 
它 所 做 的 仅仅 是 挑选 优秀 个 体 。 算 法 的 使 用 者 不 需要 知道 如 何 解决 问题 ,遗传 算法 会 
帮助 他 找到 较 优 解 。 


10.3 算法 拓展 


10.3.1 精英 主义 思想 


遗传 算法 中 的 子 代 群 体 ,主要 是 根据 适应 度 按 概率 方法 从 父 代 种 群 中 选取 一 些 个 
体 产 生 的 。 很 有 可 能 在 交叉 、 变 异 的 操作 中 ,已 经 在 中 间 和 迭代 中 发 现 的 最 优 解 被 破坏 
了 ,得 到 了 一 些 不 如 父 代 的 个 体 。 

精英 主义 的 思想 是 ,在 每 次 产生 新 种 群 时 ,把 父 代 种 群 中 的 部 分 最 优 解 直接 复制 
到 子 代 群 体 里 ,或 者 按照 概率 选择 方法 保留 一 部 分 个 体 。 

精英 主义 可 以 尽 可 能 保留 遗传 算法 中 间 和 迭代 过 程 中 已 发 现 的 最 优 和解 ,并 且 大 幅 加 
快 了 算法 的 运算 速度 。 

只 要 启用 了 精英 主义 策略 ,每 次 迭代 都 选择 至 少 一 个 最 优 个 体 进入 子 代 群 体 , 则 
算法 每 次 迭代 都 只 会 保持 当前 最 优 解 或 找到 更 好 的 解 , 而 不 会 丢失 已 找到 的 最 优 解 。 


10.3.2 RE 


遗传 算法 的 局 部 搜索 能 力 很 强 , 但 全 局 搜索 能 力 较 弱 , 容 易 陷入 局 部 最 优 解 跳 不 
出 来 。 这 是 因为 在 根据 适应 度 的 概率 选择 方法 产生 后 代 的 规则 下 ,优秀 个 体 的 后 代 很 
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容易 就 占领 种 群 。 

在 自然 界 中 ,是 强势 物种 的 大 面积 灭绝 才 给 予 了 其 他 动物 充分 进化 的 机 会 。 在 遗 
传 算法 的 改进 方法 中 ,也 可 以 采用 灾变 的 思想 ,如 果 在 多 次 迭代 中 最 优 解 仍 没有 变化 ， 
则 认为 当前 已 陷入 局 部 最 优 , 我 们 就 杀 死 一 定 比 例 的 最 优 个 体 ,给 远离 当前 最 优 解 的 
个 体 有 更 大 的 机 会 被 选中 ,能 通过 交叉 进入 后 代 群 体 , 借 此 希望 得 到 更 优秀 的 种 群 。 

如 果 多 次 灾变 后 ,仍然 未 得 到 比 之 前 优秀 的 个 体 , 则 停止 灾变 ,遗传 算法 输出 
结果 。 
需要 注意 的 是 ,精英 主义 在 每 次 迭代 中 都 可 以 运用 ,而 灾变 需要 多 次 迭代 未 发 现 
更 好 结果 时 才 使 用 。 而 且 , 精 英 主义 与 灾变 的 思想 ,还 需要 根据 具体 的 问题 来 合适 地 


运用 。 
习题 


1. 小 试 牛刀 : 自己 编码 ,或 利用 MATLAB 内 的 遗传 算法 工具 箱 ,对 有 一 个 、 多 个 
参数 的 给 定 函 数 寻 优 (如 F(z)=zsin(10rx*z) 十 2,zE[ 一 1,2]， 太 (zyzzs) 一 
(a, —D* + (ay —2)? 34,2; € (73, 2, —1,0,1,2,3) ,检查 算法 是 否 寻 找到 了 人 们 
所 期 望 的 解 。 了 解 GA 的 输入 输出 以 及 简单 使 用 方法 。 

2. 遗传 算法 最 终 寻 找到 的 结果 是 否 一 定 是 全 局 最 优 解 ?哪些 措施 可 以 帮助 我 们 
跳出 局 部 最 优 ? 

3. 子 代 个 体 是 否 一 定 比 产生 它 的 父 代 适 应 度 更 高 ? 

4. 遗传 算法 的 选择 阶段 ,比较 轮 盘 赌 随机 算法 与 排序 选择 随机 算法 的 区 别 , 哪 个 
更 容易 得 到 多 样 化 的 子 代 群体 ? 

5. 在 遗传 算法 的 遗传 阶段 之 前 ,如 果 我 们 直接 保留 最 优秀 的 一 部 分 父 代 个 体 直 
接 进 入 子 代 群 体 ,会 有 什么 效果 ? 

6. 在 变异 阶段 ,如 果子 代 个 体 进行 大 面积 变异 ,会 有 什么 效果 ? 
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第 11 章 


项 目 实践 : 基于 机 器 学 习 的 
监控 视频 行人 检测 与 追踪 系统 







监控 视频 对 于 保障 城市 安全 具有 十 分 重要 的 意义 。 但 实际 应 用 中 安防 人 员 对 视 
频 中 的 行人 进行 人 工 检测 ,嫌疑 人 追踪 等 操作 会 耗费 大 量 人 力 与 时 间 。 本 项 目 实现 了 
一 个 基于 机 器 学 习 算 法 的 监控 视频 行人 检测 追踪 系统 用 于 对 监控 视频 中 的 行人 进行 
识别 ,分 类 以 及 时 间 标注 。 将 视频 图 像 序列 依次 利用 支持 向 量 机 算法 和 图 像 方 向 梯度 
直方 图 特征 对 行人 进行 识别 和 分 割 ,相似 度 检测 并 分 类 。 根 据 指定 的 目标 行人 照片 ， 
从 提取 出 的 人 物 图 像 中 识别 出 目标 。 


11.1 引言 


近年 来 ,世界 各 国 高 度 重视 如 何在 重要 、 敏 感 的 安全 相关 部 门 和 人 流量 较 大 的 公 
共 场 合 实 现 24 小 时 自动 化 实时 的 监测 ,智能 视频 监控 成 为 备 受 关注 的 前 沿 研究 领域 
一 。 由 于 传统 的 视频 监控 系统 都 是 采用 人 工 监控 ,所 以 不 可 避免 地 会 存在 报警 精确 
度 差 、 容 易 出 现 误 报 和 漏 报 、 报 警 响 应 时 间 长 等 一 系列 的 问题 ,录像 之 后 的 数据 分 析 也 
有 很 大 的 难度 。 

由 于 机 器 学 习 算法 在 视频 监控 系统 中 的 应 用 ,诞生 了 新 一 代 的 智能 视频 监控 系 
统 。 智 能 视频 监控 系统 技术 将 计算 机 视觉 同 网 络 化 的 视频 监控 结合 起 来 ,增强 了 系统 
的 智能 化 自动 处 理 能 力 , 极 大 提高 了 监控 效果 ,减少 了 监控 人 员 的 工作 量 。 智 能 监控 
系统 可 以 处 理 监 控 传 回 的 视频 流 , 分 析 并 识别 出 其 中 的 行人 ,并 且 能 够 标注 不 同时 间 
点 的 行人 ,可 以 用 于 统计 人 流 ,监控 各 个 时 段 的 行人 ,并 达到 利用 监控 视频 对 特定 行人 
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进行 智能 追踪 的 目的 。 

本 文 设计 实现 的 监控 视频 行人 检测 与 追踪 系统 ,对 视频 每 隔 特定 的 帧 数 截取 特定 
帧 的 图 片 和 当前 帧 图 片 所 在 视频 的 时 间 位 置信 息 。 对 截取 的 图 像 ,利用 方向 梯度 直方 
图 特征 和 支持 向 量 机 算法 ,在 图 像 中 以 滑动 窗口 的 方式 检测 并 截取 行人 图 像 。 与 先前 
已 存在 的 图 像 组 通过 相似 性 指标 逐一 进行 各 个 通道 的 相似 检测 ,并 将 其 归 和 人 最 接近 的 
分 组 ,并 设置 指标 阔 值 ,如 果 最 相似 的 分 组 相似 性 未 达到 相似 性 判断 的 阔 值 , 则 将 为 行 
人 图 片 建立 新 的 分 组 并 归 入 。 识 别 出 视 频 内 的 行人 后 ,再 将 其 与 目标 行人 图 片 自动 进 
行 比 对 ,对 其 进行 位 置 追踪 。 


11.2. 相关 算法 与 指标 


11.2.1 方向 梯度 直方 图 


方向 梯度 直方 图 (Histogram Of Oriented Gradients, HOG) 是 一 种 目标 检测 的 特 
征 描述 器 ,其 核心 思想 是 被 检测 物体 的 部 分 外 形 能 够 被 光照 强度 梯度 或 者 边缘 的 方向 
分 布 所 描述 ,主要 应 用 于 计算 机 视觉 和 图 像 处 理 领 域 。HOG 特征 提取 过 程 先 将 图 像 
灰 度 化 ,后 将 图 像 划分 成 小 的 单元 格 , 计 算出 每 个 单元 格 中 每 个 像素 的 方向 梯度 ,之 后 
统计 每 个 单元 格 中 不 同 梯度 的 个 数 形成 每 个 单元 格 的 HOG 描述 子 , 最 终 进行 归 一 化 
形成 每 个 块 的 HOG 特征 。 因 为 HOG 描述 子 保存 了 几何 和 光学 之 间 转 换 的 不 变性 ， 
所 以 HOG 描述 子 比较 适合 人 的 检测 。 本 文采 用 提取 HOG 特征 的 方式 判断 图 像 中 
是 否 存在 行人 。 


11.2.2 支持 向 量 机 


支持 向 量 机 (Support Vector Machine, SVM) 是 一 种 机 器 学 习 领 域 的 通常 用 于 模 
式 识别 .回归 分 析 等 方面 的 有 监督 学 习 模型 。 通 过 给 予 一 定 的 训练 样本 ,并 标注 每 个 
样本 属于 两 个 类 别 之 一 ,SVM 训练 算法 就 可 以 创建 出 一 个 非 概率 性 二 元 线性 分 类 器 
模型 。SVM 要 求 线 性 可 区 分 ,对 于 线性 不 可 区 分 的 情况 下 需要 使 用 核 函数 显 式 地 将 
输入 转换 成 高 阶 特征 空间 ,形成 线性 可 分 。 因 此 用 图 像 HOG 信息 输入 SVM 并 训练 
就 可 以 形成 能 够 对 人 进行 检测 的 二 元 线性 分 类 器 。 本 文采 用 SVM 对 待 检测 的 HOG 
特征 进行 分 类 确定 其 中 是 否 存在 行人 。 


11.2.3 结构 相似 性 


结构 相似 性 (Structural Similarity, SSIM) 是 一 种 用 于 测量 两 张 图 片 之 间 相 似 度 
的 方式 。 通 过 比较 两 张 图 片 亮度 ,对比 度 和 结构 三 个 方面 得 出 结构 相似 性 指数 ,结构 
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相似 性 指数 范围 为 一 1 一 1 ,数值 越 大 表示 两 张 图 片 越 相 似 , 当 完 全 相同 时 结构 相似 性 
指数 为 1。 

因为 视频 的 连续 性 ,在 同一 个 视频 中 出 现 的 人 基本 处 于 相似 形态 ,因此 推测 可 以 
采用 SSIM 对 截取 出 来 的 行人 进行 相似 度 判 断 来 判断 是 否 为 同一 个 人 。 


11.2.4 Haar-Like 特征 


Haar-Like 特征 是 一 种 用 于 物体 识别 的 图 像 数字 特征 ,其 特征 提取 与 Haar 小 波 
变换 相似 , 相 比较 于 HOG 特征 , Haar-Like 特征 更 适用 于 人 脸 的 检测 ,而 HOG 适合 
人 整体 的 检测 。 本 文采 用 Haar-Like 特征 描述 脸 部 信息 用 于 对 脸 部 图 像 的 检测 。 


11.2.5 级 联 分 类 器 


级 联 分 类 器 (Casecading Classifiers) 是 一 种 由 一 系列 相关 联 的 分 类 器 组 成 的 集成 
学 习 的 特例 。 通 过 级 联 地 将 前 一 分 类 器 的 输出 结果 作为 额外 信息 输入 至 下 一 分 类 器 ， 
不 同 于 投票 式 或 者 栈 式 集合 的 多 路 系统 ,级 联 分 类 器 是 一 个 多 级 系统 。 通 过 与 Haar- 
Like 特征 结合 使 用 可 以 达到 比较 准确 地 识别 图 像 中 的 脸 部 图 像 的 目标 。 本 文 主要 用 
于 和 人 脸 的 Haar-Like 特征 相 结合 ,识别 图 像 中 的 人 脸 。 


11.2.6 特征 脸 


特征 脸 (Eigenface) 是 解决 人 脸 识别 问题 的 一 组 特征 向 量 , 通 过 在 人 脸 图 像 训 练 
集 上 进行 主 成 分 分 析 (Principal Component Analysis，PCA) 获 得 。 任 一 张 图 像 可 被 
视 作 标准 脸 的 组 合 。 将 一 个 新 的 人 脸 图 像 投 影 到 特征 脸 上 ,可 以 计算 其 与 平均 图 像 的 
偏差 。 每 一 个 特征 向 量 的 特征 值 代表 了 训练 集合 的 图 像 与 均值 图 像 在 该 方向 上 的 偏 
差 有 多 大 ,进而 可 以 标识 不 同 的 人 脸 图 像 。 


11.3. 系统 设计 与 实现 


监控 视频 行人 识别 与 追踪 系统 划分 为 视频 处 理 模块 .图 像 识别 模块 .目标 追踪 模 
块 。 图 像 识别 模块 分 为 行人 识别 组 件 和 行人 分 组 组 件 ,目标 追踪 模块 分 为 目标 行人 识 
别 和 地 图 标注 组 件 。 系 统 架构 如 图 11. 1 所 示 。 

系统 循环 从 视频 处 理 模块 读 取 相 应 帧 的 图 像 ,再 经 由 图 像 识别 模块 进行 识别 和 分 
组 。 当 视频 处 理 模 块 无 更 多 帧 可 以 读 取 时 , 则 判别 每 一 组 行人 是 否 为 目标 行人 ,并 将 
目标 行人 的 位 置 标注 在 地 图 上 。 系 统 流程 如 图 11.2 所 示 。 

系统 主要 由 VideoLoader, Detector, Cateorizer, Tracker 4 个 主要 类 以 及 一 些 其 
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图 11.1 系统 架构 图 
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图 11.2 系统 流程 图 


余 辅助 用 数据 或 工具 类 构筑 成 。 其 中 ,VideoLoader 类 负责 视频 处 理 模块 ,对 输入 视 
频 进 行 处 理 , 并 转换 成 可 循环 读 取 的 图 像 序列 ; Detector 和 Cateorizer 负责 图 像 识别 
模块 的 核心 功能 实现 ,Detector 主要 对 循环 读 取 的 视频 图 像 进行 行人 识别 ,将 行人 从 
图 像 中 截取 出 来 ,Cateorizer 主要 负责 对 Detector 截取 的 行人 图 像 进行 分 类 ,将 图 像 
分 类 至 相似 组 内 ; Tracker 从 已 识别 出 的 不 同 组 行人 中 判别 目标 行人 ,并 在 地 图 上 进 
行 标注 。 系 统 类 图 如 图 11. 3 所 示 。 


11.3.1 视频 处 理 模 块 


该 模块 负责 对 输入 视频 进行 预 处 理 , 将 视频 按照 特定 的 帧 间隔 转换 为 图 像 序列 ， 
对 于 图 像 序列 中 每 个 特定 帧 的 图 片 ,会 标定 该 图 片 在 视频 中 的 时 间 戳 位 置信 息 。 并 提 
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+ detectObject(picture:PictureInfo):void 
+markOnMap():void 











11.3 系统 类 图 


供 相应 的 接口 供 后 续 模 块 循环 获取 图 像 序列 中 的 图 像 以 及 对 应 的 基本 信息 。 

视频 处 理 模 块 核心 功能 由 VideoLoader 类 提供 ,VideoLoader 在 创建 时 通过 调用 
对 应 FFmpeg 的 接口 ,利用 FFmpeg 构建 视频 流 实 体 ,并 获得 视频 总 帧 数 等 视频 基本 
信息 ,并且 通过 FFmpeg 对 视频 文件 进行 解码 生成 解码 后 的 视频 流 , 至 此 可 以 从 视频 
流 中 逐 帧 获取 视频 图 像 , 仅 对 视频 处 理 模块 VideoLoader 类 的 工作 流程 及 核心 函数 实 
现 做 详细 说 明 。 

VideoLoader 类 提供 next 函数 ,每 次 调用 会 向 视频 流 请 求 当前 帧 图 像 , 并 获取 当 
前 帧 所 对 应 的 时 间 戳 位 置信 息 ,将 图 像 . 时 间 戳 位 置信 息 、 帧 位 置信 息 整合 后 返回 至 调 
用 者 并 使 VideoLoader 当前 帧 位 置 偏 移 一 定 帧 数 (默认 设置 为 10 帧 ) ,直至 读 到 视频 
结尾 结束 视频 的 循环 读 取 。 

由 于 使 用 的 FFmpeg 包含 多 种 音 视频 编 解码 器 ,因此 VideoLoader 类 能 够 加 载 
mp4 ,mkv.avi 等 多 种 视频 封装 格式 以 及 包括 avc/h. 264, mpeg4, hevc/h. 265 在 内 的 
多 种 视频 编码 格式 ,对 常见 的 视频 均 具 备 采 样 处 理 能 力 。 
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11.3.2 图 像 识 别 模块 


图 像 识 别 模块 由 两 个 串 行 的 组 件 一 一 行人 识别 组 件 和 行人 分 组 组 件 构成 ,负责 对 
视频 处 理 模块 中 输出 的 图 像 序列 中 的 每 个 单 张 图 片 进行 行人 检测 和 分 类 。 


1. 行人 识别 组 件 


行人 检测 组 件 核 心 功能 为 从 对 应 的 图 像 中 检测 出 行人 ,并 能 够 返回 行人 位 置 区 域 
或 者 对 原 图 进行 切 分 ,分 割 出 行人 的 图 像 ,功能 由 类 Detector 实现 ,Detector 内 部 使 用 
已 经 预先 使 用 人 物 图 像 的 HOG 特征 训练 完成 的 SVM 二 元 线性 分 类 模型 。 

Detector 类 提供 函数 detect ,函数 内 部 通过 对 图 像 进行 逐 框 扫描 ,依次 提取 每 个 
框 内 图 像 的 HOG 特征 传递 至 SVM 进行 检测 ,并 反馈 当前 框 内 是 否 存在 人 物 以 及 人 
所 在 位 置 的 矩形 区 域 ,并 再 次 扩大 扫描 框 重新 进行 扫描 直至 扫描 无 法 继续 进行 。 当 所 
有 扫描 进行 完成 之 后 再 对 所 有 的 矩形 区 域 信息 进行 筛选 ,由 于 识别 过 程 中 可 能 产生 完 
全 重 肆 区 域 ,因此 需要 对 SVM 检测 出 的 行人 区 域 进行 进一步 检查 ,去 除 完全 重要 的 
区 域 后 向 调用 者 返回 所 有 人 物 所 在 的 矩形 区 域 。 

其 中 ,HOG 表示 一 个 用 于 提取 参数 图 像 HOG 特征 的 函数 ,返回 值 为 参数 图 像 的 
HOG 特征 数据 ,SVM 表示 一 个 已 经 预先 训练 完成 的 行人 检测 用 SVM 二 元 线性 分 类 
器 ,返回 值 为 当前 区 域 的 HOG 信息 是 否 能 够 满足 行人 分 类 要 求 , 即 SVM 分 类 器 是 否 
将 该 图 像 的 HOG 特征 归 类 于 行人 组 , 若 满 足 则 表示 这 个 区 域 存在 行人 ,将 该 区 域 的 
大 小 以 及 起 始 坐 标 信息 放 入 返回 集合 。 

Detector 类 还 提供 cut 函数 依照 特定 的 矩形 区 域 集合 对 特定 的 图 像 进行 切 分 ,将 图 
像 中 的 行人 依照 其 所 在 的 区 域 进行 切割 ,并 向 调用 者 返回 所 有 切 分 完成 的 行人 图 像 。 


2. 行人 分 组 组 件 


行人 分 类 组 件 负责 对 截取 出 的 行人 图 像 进行 分 类 ,将 每 个 单 张 的 行人 图 像 进行 相 
似 度 匹配 和 分 类 ,将 相似 的 行人 归 类 为 同一 组 。 

在 同一 视频 中 的 行人 出 现 具有 连续 性 ,因为 出 现在 视频 中 的 行人 ,如 果 是 同一 个 
行人 推测 这 个 人 在 视频 不 同时 间 点 所 截取 的 行人 图 像 具 有 相似 性 ,所 以 可 以 通过 图 片 
相似 度 对 比 来 判断 是 否 为 同一 个 人 。 

行人 分 组 组 件 核 心 功 能 由 类 Categorizer 实现 ,Categorizer 类 提供 addToGroup 
函数 ,该 函数 内 部 会 调用 SSIM 相似 度 计算 函数 (getrMSSIM) 来 判断 待 加 入 现 有 组 的 
图 像 与 现 有 组 内 的 图 片 的 相似 度 。 

getMSSIM 函数 将 会 计算 两 个 图 像 矩 阵 之 间 的 SSIM 指数 ,再 通过 另外 一 个 相似 
判断 函数 综合 计算 getMSSIM 函数 返回 值 中 三 个 通道 的 相似 度 来 判断 两 张 图 片 是 否 
为 相似 图 片 。 当 新 图 与 某 一 现 有 组 内 的 图 片 相似 度 达到 一 定 阔 值 则 认为 该 图 片 能 够 
加 入 该 组 ,否则 将 会 为 新 的 图 片 建立 一 个 新 的 独立 分 组 ,并 将 该 图 片 加 入 新 的 分 组 。 
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由 于 SSIM 的 相似 度 是 通过 亮度 .对比度 和 结构 三 个 方面 分 别 计算 图 像 各 个 通道 
的 相似 度 ,而 getMSSIM 的 返回 值 为 每 个 通道 对 应 的 SSIM 相似 度 指标 ,并 且 由 于 该 
函数 实现 的 SSIM 指标 值 范围 为 [0,1] 且 越 接近 1 表示 相似 度 越 高 ,因此 在 进行 相似 
判断 时 , 当 SSIM 在 三 个 通道 内 的 其 中 两 个 通道 的 相似 度 大 于 0. 5 而 且 第 三 个 通道 的 
相似 度 指数 不 小 于 0. 45 的 情况 下 ,认为 这 两 张 图 片 相 似 , 可 以 归 类 于 同一 组 内 。 

并 且 基 于 OpenCV 实现 的 SSIM 相似 度 指标 计算 方式 存在 一 种 采用 GPU 
(Graphics Processing Unit) 进行 计算 的 优化 算法 ,并 且 该 算法 执行 效率 比 CPU 
(Central Processing Unit) 高 得 多 ,由 于 设备 限制 等 原因 ,本 系统 未 采用 GPU 运算 的 
算法 ,本 系统 计算 SSIM 指标 采用 以 CPU 计算 方式 为 主 的 算法 。 


11.3.3 目标 追踪 模块 


利用 Haar-Like 特征 和 级 联 分 类 器 ,对 上 述 模块 输出 的 行人 图 像 进 行 面部 图 像 截 
取 。 随 后 经 过 归 一 化 , 灰 度 化 等 图 像 预 处 理 过程 后 ,传人 PCA 函数 中 进行 模型 训练 ， 
变换 抽取 人 脸 的 主要 成 分 ,构成 特征 脸 空 间 , 识 别 时 将 目标 图 像 投影 到 此 空间 ,通过 与 
样本 图 像 比较 进行 识别 ,根据 给 定 的 目标 行人 照片 对 目标 进行 识别 。 如 图 11. 4 所 示 
为 目标 识别 流程 图 。 
反馈 调 参 
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图 11.4 目标 识别 流程 图 


若 识别 出 目标 行人 出 现在 某 视频 的 某 时 间 节 点 上 , 则 将 其 在 地 图 上 进行 标注 。 辅 
助 安防 人 员 进 行 后 续 相 关 工 作 。 


11.4 系统 测试 


11.4.1 测试 环境 


操作 系统 : Windows 10. Ubuntu 16.04 
CPU: 17-5600U(22. 6GHz 
内 存 : 8GB 
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11.4.2 系统 单元 测试 与 集成 测试 


系统 单元 测试 显示 各 模块 、 组 件 输出 符合 要 求 , 工 作 正 常 ,结果 如 表 11. 1 所 示 。 
集成 测试 显示 系统 在 对 视频 输入 进行 处 理 过 程 中 能 够 正常 运行 ,监控 视频 行人 识别 与 
分 类 效果 达到 要 求 , 如 图 11. 5 所 示 。 且 基本 能 够 完整 截取 出 待 输出 图 像 中 的 脸 部 ,如 
图 11.6 所 示 。 输 出 结果 符合 预期 ,系统 在 集成 测试 过 程 中 也 未 发 生 任何 异常 ,整个 系 
统 完整 通过 测试 。 
表 11.1 单元 测试 结果 


























模块 /组 件 输入 数据 预期 输出 测试 结果 
视频 处 理 模块 完整 监控 视频 按 10 间隔 帧 截取 的 图 像 序列 | ”通过 
" 行人 原 图 ,标注 图 以 及 截取 行 
行人 识别 se 
行人 识别 组 件 单 张 图 像 人 后 的 图 像 通过 
行人 分 组 组 件 乱 序 多 张 行人 图 像 分 组 后 的 行人 图 像 通过 
行人 脸 部 图 像 截取 | 行人 图 像 行人 脸 部 图 像 通过 
目标 追踪 目标 行人 图 像 与 其 他 行人 图 像 | 标注 目标 移动 位 置 通过 
2.980 3.565 11.746 1227 2.980 
12.330 13.499 20.512 14064 28.109 


1.5 行人 识别 与 分 类 结果 


11.4.3 性 能 测试 


系统 在 运行 过 程 中 ,利用 Visual Studio 性 能 工具 进行 监视 ,通过 对 统一 视频 的 重 
复 处 理 同 时 监控 对 应 进程 的 CPU 及 内 存 占用 ,统计 计算 出 平均 CPU 占用 和 内 存 占 
用 来 评估 系统 性 能 。 由 于 测试 工具 限制 ,未 在 Linux 平台 进行 详细 的 性 能 测试 , 仅 在 
程序 运行 时 进行 了 简易 的 监控 ,所 有 测试 数据 均 为 Windows 平台 的 测试 结果 。 

在 测试 全 程 ,CPU 占用 率 平均 为 30%% ,内 存 占 用 平均 为 909MB。 对 于 一 个 时 长 为 
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图 11.6 分 组 后 行人 脸 部 图 像 


36s、 分 辩 率 为 1920X1080 的 视频 ,截取 帧 总 数 为 58 帧 ,总 运行 时 间 为 Imin10s, 对 单 
帧 视频 图 像 进行 行人 检测 与 分 组 时 间 平 均 约 为 1s, 输 出 所 有 分 组 时 间 约 为 10s, 基 本 
能 够 在 较 快 的 速度 下 完成 对 整个 视频 的 行人 检测 流程 处 理 。 本 系统 性 能 达到 预期 标 
准 ,能 够 较为 快速 地 处 理 视频 输入 。 


11.4.4 系统 识别 准确 率 测试 

通过 统计 集成 测试 输出 的 数据 与 源 , 为 识别 切 分 图 像 数据 ,得 出 在 行人 检测 方面 
识别 准确 率 约 为 91%。 由 于 HOG 特征 与 SVM 结合 识别 的 特殊 性 ,未 能 识别 出 身体 
部 分 被 遮挡 的 行人 。 综 合 所 有 分 组 数据 和 脸 部 截取 数据 ,在 能 准确 用 肉眼 观察 出 脸 部 


特征 的 图 像 中 ,系统 对 脸 部 识别 的 准确 率 约 为 89% ,存在 少量 模糊 或 者 脸型 不 完整 的 
图 像 未 能 识别 以 及 部 分 错误 识别 的 数据 。 


11.5 结语 


本 项 目 设 计 实 现 了 一 个 监控 视频 目标 行人 检测 与 追踪 系统 。 利 用 HOG 和 SVM 
分 类 器 ,从 监控 视频 中 逐 框 扫描 识别 出 行人 。 根 据 SSIM 将 不 同 的 行人 进行 分 类 ,并 
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利用 Haar-Like 特征 、 级 联 分 类 器 将 行人 脸 部 图 像 截取 出 来 ,最终 根据 特征 脸 算法 在 
监控 视频 中 识别 出 目标 行人 ,并 根据 视频 位 置 和 时 间 信息 进行 追踪 。 该 系统 可 以 辅助 
安防 人 员 快 速 、 准 确 地 检索 监控 视频 ,跟踪 目标 行人 。 

但 该 系统 仍 存在 一 些 问题 需要 解决 ,如 监控 视频 中 行人 经 常会 被 障碍 物 遗 挡 ， 
或 者 行人 之 间 互 相 遮 挡 , 此 时 识别 准确 率 会 降低 ; 此 外 ,目前 整个 系统 运行 时 资源 
占用 率 较 高 。 因 此 ,在 未 来 的 工作 中 ,还 需要 对 算法 进行 优化 ,提高 识别 准确 率 , 提 
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